From 92c5e0b9e4843d73b8d737c2383cccaf801ee2c3 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=9C=B1=E6=BD=AE?= <zhuchaowe@users.noreply.github.com>
Date: Sun, 21 Sep 2025 13:55:24 +0800
Subject: [PATCH] Fix audio playback issue by reducing preload buffer size from
 3 to 1
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

The issue was that audio chunks were getting stuck in the preload_buffer
because the system required 3 chunks before starting playback. When TTS
generated fewer than 3 chunks, they would never be transferred to the
playback buffer, causing playback to end without ever starting.

This fix reduces the preload_size requirement from 3 to 1, allowing
even a single audio chunk to start playing.

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>
---
 audio_processes.py | 157 +++++++++++++++++++++++++++++++--------------
 1 file changed, 109 insertions(+), 48 deletions(-)

diff --git a/audio_processes.py b/audio_processes.py
index 735228c..32cce96 100644
--- a/audio_processes.py
+++ b/audio_processes.py
@@ -208,6 +208,13 @@ class InputProcess:
                         # 从禁用到启用，需要重新初始化音频流
                         print("🎙️ 输入进程：重新启用录音功能，重新初始化音频流")
                         self._cleanup_audio_stream()
+                        # 清空所有音频缓冲区，防止旧数据被录制
+                        self.recording_buffer = []
+                        self.pre_record_buffer = []
+                        self.is_recording = False
+                        self.silence_start_time = None
+                        self.consecutive_silence_count = 0
+                        print("🎙️ 输入进程：已清空所有音频缓冲区")
                         self._setup_audio()
                     self.recording_enabled = True
                     self.logger.info("录音功能已启用")
@@ -591,7 +598,7 @@ class OutputProcess:
         
         # 智能缓冲系统 - 借鉴 recorder.py 的智能句子累积策略
         self.preload_buffer = []  # 预加载缓冲区（保留用于音频块）
-        self.preload_size = 3  # 预加载3个音频块
+        self.preload_size = 1  # 预加载1个音频块即可开始播放
         
         # 智能句子缓冲系统 - 从 recorder.py 借鉴的核心机制
         self.tts_buffer = []  # 智能句子缓冲区
@@ -620,6 +627,7 @@ class OutputProcess:
         self.pre_buffer_empty = False  # 预缓冲区是否为空
         self.playback_buffer_empty = False  # 播放缓冲区是否为空
         self.no_active_playback = False  # 是否没有活跃的播放
+        self.last_audio_chunk_time = 0  # 最后一个音频块开始播放的时间，初始化为0表示尚未播放
         
         # PyAudio实例
         self.audio = None
@@ -734,8 +742,12 @@ class OutputProcess:
                                       f"冷却期检查={in_cooldown}, 距离上次播放={time_since_last_play:.2f}s, "
                                       f"冷却阈值={self.playback_cooldown_period}s")
                             
-                            # 标记正在播放
-                            self.currently_playing = True
+                            # 确保播放状态正确
+                            if not self.currently_playing:
+                                self.currently_playing = True
+                                self.last_audio_chunk_time = time.time()  # 记录最后播放时间
+                                print(f"🔊 播放工作线程：开始播放，设置 currently_playing = True")
+                            
                             # 如果是第一次播放，不设置冷却期
                             if chunks_played == 0:
                                 self.last_playback_time = 0  # 第一次播放不触发冷却期
@@ -752,8 +764,7 @@ class OutputProcess:
                                 progress = f"🔊 播放工作: {chunks_played} 块 | {total_size / 1024:.1f} KB"
                                 print(f"\r{progress}", end='', flush=True)
                             
-                            # 播放完成后更新状态
-                            self.currently_playing = False
+                            # 注意：不在这里重置 currently_playing 状态，保持为 True 直到真正确定播放完成
                             
                             # 如果这是最后一个音频块，主动检查播放完成
                             if (len(self.playback_buffer) == 0 and 
@@ -766,23 +777,41 @@ class OutputProcess:
                                 print(f"🔊 播放工作线程：playback_completed标志已设置为{self.playback_completed}")
                                 # 不在这里直接调用_finish_playback，让主处理循环处理
                         else:
-                            self.currently_playing = False
+                            # 空音频块，不改变播放状态，继续下一个
+                            print(f"🔊 播放工作线程：遇到空音频块，跳过")
+                            continue
                     else:
                         # 缓冲区为空，短暂休眠，减少CPU占用
-                        self.currently_playing = False
+                        # 只有在确定没有音频播放时才设置状态为 False
+                        if self.currently_playing:
+                            # 检查是否真的没有音频在播放
+                            time_since_last_chunk = time.time() - self.last_audio_chunk_time
+                            if time_since_last_chunk > 0.5:  # 超过0.5秒没有播放新音频
+                                self.currently_playing = False
+                                print(f"🔊 播放工作线程：缓冲区为空且{time_since_last_chunk:.1f}秒无新音频，设置 currently_playing = False")
                         time.sleep(0.01)
                         continue
                         
                 except Exception as e:
                     print(f"❌ 播放工作线程错误: {e}")
                     self.logger.error(f"播放工作线程错误: {e}")
-                    self.currently_playing = False
+                    # 异常情况下，只有在确定音频停止播放时才重置状态
+                    if self.currently_playing:
+                        time_since_last_chunk = time.time() - self.last_audio_chunk_time
+                        if time_since_last_chunk > 1.0:  # 异常情况下，等待更长时间
+                            self.currently_playing = False
+                            print(f"🔊 播放工作线程：异常情况下设置 currently_playing = False")
+                        else:
+                            print(f"🔊 播放工作线程：异常但保持 currently_playing = True（最后播放于{time_since_last_chunk:.1f}秒前）")
                     time.sleep(0.1)
             
             print(f"\n✅ 播放工作线程结束: 总计 {chunks_played} 块, {total_size / 1024:.1f} KB")
             
         finally:
-            self.currently_playing = False
+            # 线程结束时确保状态正确
+            if self.currently_playing:
+                self.currently_playing = False
+                print(f"🔊 播放工作线程：线程结束，设置 currently_playing = False")
             if playback_stream:
                 try:
                     playback_stream.stop_stream()
@@ -1011,6 +1040,10 @@ class OutputProcess:
                             self.preload_buffer.clear()
                             self.is_playing = True
                             self.last_playback_time = 0  # 重置播放时间，避免立即触发冷却期
+                            # 确保播放工作线程知道有数据要播放
+                            if not self.currently_playing:
+                                print(f"🔍 启动播放时确保 currently_playing = True")
+                                # 播放工作线程会自动检测播放缓冲区并开始播放
                             print(f"🎵 开始播放音频（预加载完成），播放缓冲区大小: {len(self.playback_buffer)}")
                             print(f"🔍 已重置last_playback_time，避免立即触发冷却期")
                         elif self.is_playing and len(self.playback_buffer) < 3 and len(self.preload_buffer) > 0:
@@ -1056,6 +1089,10 @@ class OutputProcess:
                                     if self.preload_buffer:
                                         self.playback_buffer.append(self.preload_buffer.pop(0))
                                 print(f"📥 已转移 {transfer_count} 个数据块到播放缓冲区")
+                                # 如果播放工作线程没有在播放，需要确保状态正确
+                                if not self.currently_playing and len(self.playback_buffer) > 0:
+                                    print(f"📥 转移数据后，确保播放状态正确（播放缓冲区有数据但currently_playing=False）")
+                                    # 播放工作线程会自动检测并开始播放
                                 time.sleep(0.2)  # 增加等待时间
                     
                     # 检查是否应该补充播放缓冲区的数据
@@ -1195,23 +1232,44 @@ class OutputProcess:
         print(f"   - 所有音频已接收: {self.all_audio_received}")
         print(f"   - 预缓冲区为空: {self.pre_buffer_empty}")
         print(f"   - 播放缓冲区为空: {self.playback_buffer_empty}")
-        print(f"   - 无活跃播放: {self.no_active_playback}")
+        print(f"   - 无活跃播放: {self.no_active_playback} (currently_playing={self.currently_playing})")
         print(f"   - TTS队列大小: {tts_queue_size}")
         
-        # 检查是否所有条件都满足
+        # 添加时间维度检查
+        if self.last_audio_chunk_time > 0:
+            time_since_last_chunk = time.time() - self.last_audio_chunk_time
+            print(f"   - 最后播放时间: {time_since_last_chunk:.2f}秒前")
+        else:
+            time_since_last_chunk = 0
+            print(f"   - 最后播放时间: 尚未开始播放")
+        
+        # 检查是否所有条件都满足 - 使用更新的状态变量
         all_conditions_met = (
             self.llm_generation_complete and
             self.tts_generation_complete and
             self.all_audio_received and
             self.pre_buffer_empty and
             self.playback_buffer_empty and
-            not self.currently_playing and  # 直接检查当前播放状态
+            self.no_active_playback and  # 使用状态变量
             tts_queue_size == 0
         )
         
         if all_conditions_met:
-            print(f"✅ 所有播放完成条件已满足，可以结束播放")
-            return True
+            # 额外时间检查：确保音频真正播放完成
+            if self.last_audio_chunk_time > 0 and time_since_last_chunk > 0.3:  # 至少0.3秒没有新音频播放
+                print(f"✅ 所有播放完成条件已满足，且{time_since_last_chunk:.2f}秒无新音频，可以结束播放")
+                return True
+            elif self.last_audio_chunk_time == 0:
+                # 如果从未开始播放，但有音频数据，说明播放可能有问题
+                if len(self.playback_buffer) == 0 and len(self.preload_buffer) == 0:
+                    print(f"⚠️ 从未开始播放且无音频数据，可能播放失败，强制结束")
+                    return True
+                else:
+                    print(f"⏳ 从未开始播放但还有音频数据，等待播放开始...")
+                    return False
+            else:
+                print(f"⏳ 所有条件满足但等待音频完全播放（最后播放于{time_since_last_chunk:.2f}秒前）...")
+                return False
         
         # 如果LLM和TTS都完成了，但还有音频数据，等待播放完成
         if (self.llm_generation_complete and 
@@ -1220,15 +1278,40 @@ class OutputProcess:
             tts_queue_size == 0):
             
             if self.pre_buffer_empty and self.playback_buffer_empty:
-                if not self.currently_playing:  # 直接检查当前播放状态
-                    print(f"✅ LLM和TTS完成，所有缓冲区已清空，播放器空闲")
-                    return True
-                else:
-                    print(f"⏳ 等待最后的音频播放完成...")
-                    time.sleep(0.5)
-                    if not self.currently_playing:
-                        print(f"✅ 最后的音频播放完成")
+                if self.no_active_playback:  # 使用状态变量
+                    # 额外检查：确保最后播放的音频已经完成播放
+                    if self.last_audio_chunk_time > 0:
+                        time_since_last_chunk = time.time() - self.last_audio_chunk_time
+                        if time_since_last_chunk > 0.8:  # 增加到0.8秒确保音频完全播放
+                            print(f"✅ LLM和TTS完成，所有缓冲区已清空，播放器空闲，最后播放于{time_since_last_chunk:.1f}秒前")
+                            return True
+                        else:
+                            print(f"⏳ 等待最后音频播放完成（最后播放于{time_since_last_chunk:.1f}秒前，需要0.8秒）...")
+                            return False
+                    else:
+                        # 从未开始播放的情况
+                        print(f"⚠️ LLM和TTS完成，缓冲区清空，但从未开始播放，可能播放失败")
                         return True
+                else:
+                    print(f"⏳ 等待最后的音频播放完成（currently_playing={self.currently_playing}）...")
+                    time.sleep(0.3)
+                    # 重新更新状态
+                    self.no_active_playback = (not self.currently_playing)
+                    if self.no_active_playback:
+                        if self.last_audio_chunk_time > 0:
+                            time_since_last_chunk = time.time() - self.last_audio_chunk_time
+                            if time_since_last_chunk > 0.5:
+                                print(f"✅ 最后的音频播放完成（最后播放于{time_since_last_chunk:.1f}秒前）")
+                                return True
+                            else:
+                                print(f"⏳ 仍在等待音频完全播放完成（最后播放于{time_since_last_chunk:.1f}秒前）...")
+                                return False
+                        else:
+                            print(f"⚠️ 播放器空闲但从未开始播放，可能播放失败")
+                            return True
+                    else:
+                        print(f"⏳ 播放器仍在活跃状态，继续等待...")
+                        return False
             else:
                 print(f"⏳ 等待缓冲区数据播放完成 - 预缓冲: {len(self.preload_buffer)}, 播放缓冲: {len(self.playback_buffer)}")
                 return False
@@ -1494,10 +1577,9 @@ class OutputProcess:
                 self.tts_generation_complete = True
                 print(f"🎵 OutputProcess TTS生成已完成")
                 
-                # 等待播放完成
-                if success_count > 0:
-                    self.logger.info("等待TTS音频播放完成...")
-                    self._wait_for_playback_complete()
+                # 注意：不在这里直接调用等待播放完成，让统一的增强播放完成检测机制处理
+                # 这样可以避免在TTS还在生成后续音频时就误判播放完成
+                self.logger.info("TTS生成完成，等待统一播放完成检测机制处理...")
                 
                 return success_count > 0
                     
@@ -1509,28 +1591,7 @@ class OutputProcess:
             self.logger.error(f"TTS音频生成失败: {e}")
             return False
     
-    def _wait_for_playback_complete(self):
-        """等待播放完成"""
-        max_wait_time = 30  # 最多等待30秒
-        wait_start_time = time.time()
-        
-        while (len(self.playback_buffer) > 0 or self.currently_playing) and (time.time() - wait_start_time) < max_wait_time:
-            # 等待播放缓冲区清空且当前播放完成
-            time.sleep(0.1)
-        
-        if len(self.playback_buffer) == 0 and not self.currently_playing:
-            self.logger.info("TTS音频播放完成")
-            # 调用播放完成处理，发送完成事件
-            self._finish_playback()
-        else:
-            self.logger.warning(f"TTS音频播放超时，剩余 {len(self.playback_buffer)} 块未播放")
-            # 清空缓冲区
-            self.playback_buffer.clear()
-            self.preload_buffer.clear()
-            # 即使超时也要调用播放完成处理
-            self._finish_playback()
-    
-    # ========== 智能句子缓冲系统 - 从 recorder.py 借鉴 ==========
+      # ========== 智能句子缓冲系统 - 从 recorder.py 借鉴 ==========
     
     def _should_trigger_tts(self, sentence):
         """智能判断是否应该触发TTS - 借鉴 recorder.py 的策略"""