config

2025-09-20 14:35:54 +08:00 · 2025-09-20 14:35:54 +08:00 · 9108fd4582
commit 9108fd4582
parent 9f7858a30e
7 changed files with 2675 additions and 0 deletions
--- a/doubao.py
+++ b/doubao.py
@ -0,0 +1,470 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块
 简化版WebSocket API，支持音频文件上传和返回音频处理
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import struct
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 class DoubaoConfig:
    """豆包配置"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
 class DoubaoProtocol:
    """豆包协议处理"""
    # 协议常量
    PROTOCOL_VERSION = 0b0001
    CLIENT_FULL_REQUEST = 0b0001
    CLIENT_AUDIO_ONLY_REQUEST = 0b0010
    SERVER_FULL_RESPONSE = 0b1001
    SERVER_ACK = 0b1011
    SERVER_ERROR_RESPONSE = 0b1111
    NO_SEQUENCE = 0b0000
    POS_SEQUENCE = 0b0001
    MSG_WITH_EVENT = 0b0100
    JSON = 0b0001
    NO_SERIALIZATION = 0b0000
    GZIP = 0b0001
    @classmethod
    def generate_header(cls, message_type=CLIENT_FULL_REQUEST, 
                       message_type_specific_flags=MSG_WITH_EVENT,
                       serial_method=JSON, compression_type=GZIP) -> bytes:
        """生成协议头"""
        header = bytearray()
        header.append((cls.PROTOCOL_VERSION << 4) | 1)  # version + header_size
        header.append((message_type << 4) | message_type_specific_flags)
        header.append((serial_method << 4) | compression_type)
        header.append(0x00)  # reserved
        return bytes(header)
    @classmethod
    def parse_response(cls, res: bytes) -> Dict[str, Any]:
        """解析响应"""
        if isinstance(res, str):
            return {}
        protocol_version = res[0] >> 4
        header_size = res[0] & 0x0f
        message_type = res[1] >> 4
        message_type_specific_flags = res[1] & 0x0f
        serialization_method = res[2] >> 4
        message_compression = res[2] & 0x0f
        payload = res[header_size * 4:]
        result = {}
        if message_type == cls.SERVER_FULL_RESPONSE or message_type == cls.SERVER_ACK:
            result['message_type'] = 'SERVER_FULL_RESPONSE'
            if message_type == cls.SERVER_ACK:
                result['message_type'] = 'SERVER_ACK'
            start = 0
            if message_type_specific_flags & cls.MSG_WITH_EVENT:
                result['event'] = int.from_bytes(payload[:4], "big", signed=False)
                start += 4
            payload = payload[start:]
            session_id_size = int.from_bytes(payload[:4], "big", signed=True)
            session_id = payload[4:session_id_size+4]
            result['session_id'] = str(session_id)
            payload = payload[4 + session_id_size:]
            payload_size = int.from_bytes(payload[:4], "big", signed=False)
            payload_msg = payload[4:]
            result['payload_size'] = payload_size
            if payload_msg:
                if message_compression == cls.GZIP:
                    payload_msg = gzip.decompress(payload_msg)
                if serialization_method == cls.JSON:
                    payload_msg = json.loads(str(payload_msg, "utf-8"))
                result['payload_msg'] = payload_msg
        elif message_type == cls.SERVER_ERROR_RESPONSE:
            code = int.from_bytes(payload[:4], "big", signed=False)
            result['code'] = code
            payload_size = int.from_bytes(payload[4:8], "big", signed=False)
            result['payload_size'] = payload_size
        return result
 class AudioProcessor:
    """音频处理器"""
    @staticmethod
    def read_wav_file(file_path: str) -> tuple:
        """读取WAV文件，返回音频数据和参数"""
        with wave.open(file_path, 'rb') as wf:
            # 获取音频参数
            channels = wf.getnchannels()
            sampwidth = wf.getsampwidth()
            framerate = wf.getframerate()
            nframes = wf.getnframes()
            # 读取音频数据
            audio_data = wf.readframes(nframes)
            return audio_data, {
                'channels': channels,
                'sampwidth': sampwidth,
                'framerate': framerate,
                'nframes': nframes
            }
    @staticmethod
    def create_wav_file(audio_data: bytes, output_path: str, 
                      sample_rate: int = 24000, channels: int = 1, 
                      sampwidth: int = 2) -> None:
        """创建WAV文件，适配树莓派播放"""
        with wave.open(output_path, 'wb') as wf:
            wf.setnchannels(channels)
            wf.setsampwidth(sampwidth)
            wf.setframerate(sample_rate)
            wf.writeframes(audio_data)
 class DoubaoClient:
    """豆包客户端"""
    def __init__(self, config: DoubaoConfig):
        self.config = config
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.config.base_url}")
        self.ws = await websockets.connect(
            self.config.base_url,
            additional_headers=self.config.get_headers(),
            ping_interval=None
        )
        # 获取log_id
        if hasattr(self.ws, 'response_headers'):
            self.log_id = self.ws.response_headers.get("X-Tt-Logid")
        elif hasattr(self.ws, 'headers'):
            self.log_id = self.ws.headers.get("X-Tt-Logid")
        print(f"连接成功, log_id: {self.log_id}")
        # 发送StartConnection请求
        await self._send_start_connection()
        # 发送StartSession请求
        await self._send_start_session()
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        parsed_response = DoubaoProtocol.parse_response(response)
        print(f"StartConnection响应: {parsed_response}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 10,
                    "input_mod": "audio_file",  # 使用音频文件模式
                },
            },
        }
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        parsed_response = DoubaoProtocol.parse_response(response)
        print(f"StartSession响应: {parsed_response}")
    async def send_audio_file(self, file_path: str) -> bytes:
        """发送音频文件并返回响应音频"""
        print(f"处理音频文件: {file_path}")
        # 读取音频文件
        audio_data, audio_info = AudioProcessor.read_wav_file(file_path)
        print(f"音频参数: {audio_info}")
        # 计算分块大小（200ms）
        chunk_size = int(audio_info['framerate'] * audio_info['channels'] * 
                        audio_info['sampwidth'] * 0.2)
        # 分块发送音频数据
        total_chunks = (len(audio_data) + chunk_size - 1) // chunk_size
        print(f"开始分块发送音频，共 {total_chunks} 块")
        received_audio = b""
        error_count = 0
        for i in range(0, len(audio_data), chunk_size):
            chunk = audio_data[i:i + chunk_size]
            is_last = (i + chunk_size >= len(audio_data))
            # 发送音频块
            await self._send_audio_chunk(chunk, is_last)
            # 接收响应
            try:
                response = await asyncio.wait_for(self.ws.recv(), timeout=2.0)
                parsed_response = DoubaoProtocol.parse_response(response)
                # 检查是否是错误响应
                if 'code' in parsed_response and parsed_response['code'] != 0:
                    print(f"服务器返回错误: {parsed_response}")
                    error_count += 1
                    if error_count > 3:
                        raise Exception(f"服务器连续返回错误: {parsed_response}")
                    continue
                # 处理音频响应
                if (parsed_response.get('message_type') == 'SERVER_ACK' and 
                    isinstance(parsed_response.get('payload_msg'), bytes)):
                    audio_chunk = parsed_response['payload_msg']
                    received_audio += audio_chunk
                    print(f"接收到音频数据块，大小: {len(audio_chunk)} 字节")
                # 检查会话状态
                event = parsed_response.get('event')
                if event in [359, 152, 153]:  # 这些事件表示会话相关状态
                    print(f"会话事件: {event}")
                    if event in [152, 153]:  # 会话结束
                        print("检测到会话结束事件")
                        break
            except asyncio.TimeoutError:
                print("等待响应超时，继续发送")
            # 模拟实时发送的延迟
            await asyncio.sleep(0.05)
        print("音频文件发送完成")
        return received_audio
    async def _send_audio_chunk(self, audio_data: bytes, is_last: bool = False) -> None:
        """发送音频块"""
        request = bytearray(
            DoubaoProtocol.generate_header(
                message_type=DoubaoProtocol.CLIENT_AUDIO_ONLY_REQUEST,
                message_type_specific_flags=DoubaoProtocol.NO_SEQUENCE,
                serial_method=DoubaoProtocol.NO_SERIALIZATION,  # 音频数据不需要序列化
                compression_type=DoubaoProtocol.GZIP
            )
        )
        request.extend(int(200).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        # 压缩音频数据
        compressed_audio = gzip.compress(audio_data)
        request.extend(len(compressed_audio).to_bytes(4, 'big'))  # payload size(4 bytes)
        request.extend(compressed_audio)
        await self.ws.send(request)
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                # 发送FinishSession
                await self._send_finish_session()
                # 发送FinishConnection
                await self._send_finish_connection()
            except Exception as e:
                print(f"关闭会话时出错: {e}")
            finally:
                # 确保WebSocket连接关闭
                try:
                    await self.ws.close()
                except:
                    pass
                print("连接已关闭")
    async def _send_finish_session(self) -> None:
        """发送FinishSession请求"""
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(102).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
    async def _send_finish_connection(self) -> None:
        """发送FinishConnection请求"""
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(2).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        parsed_response = DoubaoProtocol.parse_response(response)
        print(f"FinishConnection响应: {parsed_response}")
 class DoubaoProcessor:
    """豆包音频处理器"""
    def __init__(self):
        self.config = DoubaoConfig()
        self.client = DoubaoClient(self.config)
    async def process_audio_file(self, input_file: str, output_file: str = None) -> str:
        """处理音频文件
        Args:
            input_file: 输入音频文件路径
            output_file: 输出音频文件路径，如果为None则自动生成
        Returns:
            输出音频文件路径
        """
        if not os.path.exists(input_file):
            raise FileNotFoundError(f"音频文件不存在: {input_file}")
        # 生成输出文件名
        if output_file is None:
            timestamp = time.strftime("%Y%m%d_%H%M%S")
            output_file = f"doubao_response_{timestamp}.wav"
        try:
            # 连接豆包服务器
            await self.client.connect()
            # 等待一会确保会话建立
            await asyncio.sleep(0.5)
            # 发送音频文件并获取响应
            received_audio = await self.client.send_audio_file(input_file)
            if received_audio:
                print(f"总共接收到音频数据: {len(received_audio)} 字节")
                # 转换为WAV格式保存（适配树莓派播放）
                AudioProcessor.create_wav_file(
                    received_audio, 
                    output_file,
                    sample_rate=24000,  # 豆包返回的音频采样率
                    channels=1,
                    sampwidth=2  # 16-bit
                )
                print(f"响应音频已保存到: {output_file}")
                # 显示文件信息
                file_size = os.path.getsize(output_file)
                print(f"输出文件大小: {file_size} 字节")
            else:
                print("警告: 未接收到音频响应")
            return output_file
        except Exception as e:
            print(f"处理音频文件时出错: {e}")
            import traceback
            traceback.print_exc()
            raise
        finally:
            await self.client.close()
 async def main():
    """测试函数"""
    import argparse
    parser = argparse.ArgumentParser(description="豆包音频处理测试")
    parser.add_argument("--input", type=str, required=True, help="输入音频文件路径")
    parser.add_argument("--output", type=str, help="输出音频文件路径")
    args = parser.parse_args()
    processor = DoubaoProcessor()
    try:
        output_file = await processor.process_audio_file(args.input, args.output)
        print(f"处理完成，输出文件: {output_file}")
    except Exception as e:
        print(f"处理失败: {e}")
 if __name__ == "__main__":
    asyncio.run(main())
--- a/doubao_debug.py
+++ b/doubao_debug.py
@ -0,0 +1,540 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 调试版本
 添加更多调试信息和错误处理
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import struct
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 class DoubaoConfig:
    """豆包配置"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
 class DoubaoProtocol:
    """豆包协议处理"""
    # 协议常量
    PROTOCOL_VERSION = 0b0001
    CLIENT_FULL_REQUEST = 0b0001
    CLIENT_AUDIO_ONLY_REQUEST = 0b0010
    SERVER_FULL_RESPONSE = 0b1001
    SERVER_ACK = 0b1011
    SERVER_ERROR_RESPONSE = 0b1111
    NO_SEQUENCE = 0b0000
    POS_SEQUENCE = 0b0001
    MSG_WITH_EVENT = 0b0100
    JSON = 0b0001
    NO_SERIALIZATION = 0b0000
    GZIP = 0b0001
    @classmethod
    def generate_header(cls, message_type=CLIENT_FULL_REQUEST, 
                       message_type_specific_flags=MSG_WITH_EVENT,
                       serial_method=JSON, compression_type=GZIP) -> bytes:
        """生成协议头"""
        header = bytearray()
        header.append((cls.PROTOCOL_VERSION << 4) | 1)  # version + header_size
        header.append((message_type << 4) | message_type_specific_flags)
        header.append((serial_method << 4) | compression_type)
        header.append(0x00)  # reserved
        return bytes(header)
    @classmethod
    def parse_response(cls, res: bytes) -> Dict[str, Any]:
        """解析响应"""
        if isinstance(res, str):
            return {}
        try:
            protocol_version = res[0] >> 4
            header_size = res[0] & 0x0f
            message_type = res[1] >> 4
            message_type_specific_flags = res[1] & 0x0f
            serialization_method = res[2] >> 4
            message_compression = res[2] & 0x0f
            payload = res[header_size * 4:]
            result = {}
            if message_type == cls.SERVER_FULL_RESPONSE or message_type == cls.SERVER_ACK:
                result['message_type'] = 'SERVER_FULL_RESPONSE'
                if message_type == cls.SERVER_ACK:
                    result['message_type'] = 'SERVER_ACK'
                start = 0
                if message_type_specific_flags & cls.MSG_WITH_EVENT:
                    result['event'] = int.from_bytes(payload[:4], "big", signed=False)
                    start += 4
                payload = payload[start:]
                if len(payload) < 4:
                    result['error'] = 'Payload too short for session_id'
                    return result
                session_id_size = int.from_bytes(payload[:4], "big", signed=True)
                if session_id_size < 0 or session_id_size > len(payload) - 4:
                    result['error'] = f'Invalid session_id size: {session_id_size}'
                    return result
                session_id = payload[4:session_id_size+4]
                result['session_id'] = str(session_id)
                payload = payload[4 + session_id_size:]
                if len(payload) < 4:
                    result['error'] = 'Payload too short for payload_size'
                    return result
                payload_size = int.from_bytes(payload[:4], "big", signed=False)
                result['payload_size'] = payload_size
                if len(payload) >= 4 + payload_size:
                    payload_msg = payload[4:4 + payload_size]
                    if payload_msg:
                        if message_compression == cls.GZIP:
                            try:
                                payload_msg = gzip.decompress(payload_msg)
                            except Exception as e:
                                result['decompress_error'] = str(e)
                                return result
                        if serialization_method == cls.JSON:
                            try:
                                payload_msg = json.loads(str(payload_msg, "utf-8"))
                            except Exception as e:
                                result['json_error'] = str(e)
                                payload_msg = str(payload_msg, "utf-8")
                        elif serialization_method != cls.NO_SERIALIZATION:
                            payload_msg = str(payload_msg, "utf-8")
                        result['payload_msg'] = payload_msg
            elif message_type == cls.SERVER_ERROR_RESPONSE:
                if len(payload) >= 8:
                    code = int.from_bytes(payload[:4], "big", signed=False)
                    result['code'] = code
                    payload_size = int.from_bytes(payload[4:8], "big", signed=False)
                    result['payload_size'] = payload_size
                    if len(payload) >= 8 + payload_size:
                        payload_msg = payload[8:8 + payload_size]
                        if payload_msg and message_compression == cls.GZIP:
                            try:
                                payload_msg = gzip.decompress(payload_msg)
                            except:
                                pass
                        result['payload_msg'] = payload_msg
        except Exception as e:
            result['parse_error'] = str(e)
        return result
 class AudioProcessor:
    """音频处理器"""
    @staticmethod
    def read_wav_file(file_path: str) -> tuple:
        """读取WAV文件，返回音频数据和参数"""
        with wave.open(file_path, 'rb') as wf:
            # 获取音频参数
            channels = wf.getnchannels()
            sampwidth = wf.getsampwidth()
            framerate = wf.getframerate()
            nframes = wf.getnframes()
            # 读取音频数据
            audio_data = wf.readframes(nframes)
            return audio_data, {
                'channels': channels,
                'sampwidth': sampwidth,
                'framerate': framerate,
                'nframes': nframes
            }
    @staticmethod
    def create_wav_file(audio_data: bytes, output_path: str, 
                      sample_rate: int = 24000, channels: int = 1, 
                      sampwidth: int = 2) -> None:
        """创建WAV文件，适配树莓派播放"""
        with wave.open(output_path, 'wb') as wf:
            wf.setnchannels(channels)
            wf.setsampwidth(sampwidth)
            wf.setframerate(sample_rate)
            wf.writeframes(audio_data)
 class DoubaoClient:
    """豆包客户端"""
    def __init__(self, config: DoubaoConfig):
        self.config = config
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.config.base_url}")
        try:
            self.ws = await websockets.connect(
                self.config.base_url,
                additional_headers=self.config.get_headers(),
                ping_interval=None
            )
            # 获取log_id
            if hasattr(self.ws, 'response_headers'):
                self.log_id = self.ws.response_headers.get("X-Tt-Logid")
            elif hasattr(self.ws, 'headers'):
                self.log_id = self.ws.headers.get("X-Tt-Logid")
            print(f"连接成功, log_id: {self.log_id}")
            # 发送StartConnection请求
            await self._send_start_connection()
            # 发送StartSession请求
            await self._send_start_session()
        except Exception as e:
            print(f"连接失败: {e}")
            raise
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        print("发送StartConnection请求...")
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        parsed_response = DoubaoProtocol.parse_response(response)
        print(f"StartConnection响应: {parsed_response}")
        # 检查是否有错误
        if 'error' in parsed_response:
            raise Exception(f"StartConnection解析错误: {parsed_response['error']}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        print("发送StartSession请求...")
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 30,  # 增加超时时间
                    "input_mod": "audio_file",  # 使用音频文件模式
                },
            },
        }
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        parsed_response = DoubaoProtocol.parse_response(response)
        print(f"StartSession响应: {parsed_response}")
        # 检查是否有错误
        if 'error' in parsed_response:
            raise Exception(f"StartSession解析错误: {parsed_response['error']}")
        # 等待一会确保会话完全建立
        await asyncio.sleep(1.0)
    async def send_audio_file(self, file_path: str) -> bytes:
        """发送音频文件并返回响应音频"""
        print(f"处理音频文件: {file_path}")
        # 读取音频文件
        audio_data, audio_info = AudioProcessor.read_wav_file(file_path)
        print(f"音频参数: {audio_info}")
        # 计算分块大小（减小到50ms，避免数据块过大）
        chunk_size = int(audio_info['framerate'] * audio_info['channels'] * 
                        audio_info['sampwidth'] * 0.05)  # 50ms
        # 分块发送音频数据
        total_chunks = (len(audio_data) + chunk_size - 1) // chunk_size
        print(f"开始分块发送音频，共 {total_chunks} 块")
        received_audio = b""
        error_count = 0
        session_active = True
        for i in range(0, len(audio_data), chunk_size):
            if not session_active:
                print("会话已结束，停止发送")
                break
            chunk = audio_data[i:i + chunk_size]
            is_last = (i + chunk_size >= len(audio_data))
            # 发送音频块
            await self._send_audio_chunk(chunk, is_last)
            # 接收响应
            try:
                response = await asyncio.wait_for(self.ws.recv(), timeout=3.0)
                parsed_response = DoubaoProtocol.parse_response(response)
                print(f"响应 {i//chunk_size + 1}/{total_chunks}: {parsed_response}")
                # 检查是否是错误响应
                if 'code' in parsed_response and parsed_response['code'] != 0:
                    print(f"服务器返回错误: {parsed_response}")
                    error_count += 1
                    if error_count > 3:
                        raise Exception(f"服务器连续返回错误: {parsed_response}")
                    continue
                # 处理音频响应
                if (parsed_response.get('message_type') == 'SERVER_ACK' and 
                    isinstance(parsed_response.get('payload_msg'), bytes)):
                    audio_chunk = parsed_response['payload_msg']
                    received_audio += audio_chunk
                    print(f"接收到音频数据块，大小: {len(audio_chunk)} 字节")
                # 检查会话状态
                event = parsed_response.get('event')
                if event in [359, 152, 153]:  # 这些事件表示会话相关状态
                    print(f"会话事件: {event}")
                    if event in [152, 153]:  # 会话结束
                        print("检测到会话结束事件")
                        session_active = False
                        break
            except asyncio.TimeoutError:
                print("等待响应超时，继续发送")
            # 模拟实时发送的延迟
            await asyncio.sleep(0.1)
        print("音频文件发送完成")
        return received_audio
    async def _send_audio_chunk(self, audio_data: bytes, is_last: bool = False) -> None:
        """发送音频块"""
        request = bytearray(
            DoubaoProtocol.generate_header(
                message_type=DoubaoProtocol.CLIENT_AUDIO_ONLY_REQUEST,
                message_type_specific_flags=DoubaoProtocol.NO_SEQUENCE,
                serial_method=DoubaoProtocol.NO_SERIALIZATION,  # 音频数据不需要序列化
                compression_type=DoubaoProtocol.GZIP
            )
        )
        request.extend(int(200).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        # 压缩音频数据
        compressed_audio = gzip.compress(audio_data)
        payload_size = len(compressed_audio)
        request.extend(payload_size.to_bytes(4, 'big'))  # payload size(4 bytes)
        request.extend(compressed_audio)
        print(f"发送音频块 - 原始大小: {len(audio_data)}, 压缩后大小: {payload_size}, 总请求数据大小: {len(request)}")
        await self.ws.send(request)
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                # 发送FinishSession
                await self._send_finish_session()
                # 发送FinishConnection
                await self._send_finish_connection()
            except Exception as e:
                print(f"关闭会话时出错: {e}")
            finally:
                # 确保WebSocket连接关闭
                try:
                    await self.ws.close()
                except:
                    pass
                print("连接已关闭")
    async def _send_finish_session(self) -> None:
        """发送FinishSession请求"""
        print("发送FinishSession请求...")
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(102).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
    async def _send_finish_connection(self) -> None:
        """发送FinishConnection请求"""
        print("发送FinishConnection请求...")
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(2).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        try:
            response = await asyncio.wait_for(self.ws.recv(), timeout=5.0)
            parsed_response = DoubaoProtocol.parse_response(response)
            print(f"FinishConnection响应: {parsed_response}")
        except asyncio.TimeoutError:
            print("FinishConnection响应超时")
 class DoubaoProcessor:
    """豆包音频处理器"""
    def __init__(self):
        self.config = DoubaoConfig()
        self.client = DoubaoClient(self.config)
    async def process_audio_file(self, input_file: str, output_file: str = None) -> str:
        """处理音频文件
        Args:
            input_file: 输入音频文件路径
            output_file: 输出音频文件路径，如果为None则自动生成
        Returns:
            输出音频文件路径
        """
        if not os.path.exists(input_file):
            raise FileNotFoundError(f"音频文件不存在: {input_file}")
        # 生成输出文件名
        if output_file is None:
            timestamp = time.strftime("%Y%m%d_%H%M%S")
            output_file = f"doubao_response_{timestamp}.wav"
        try:
            # 连接豆包服务器
            await self.client.connect()
            # 发送音频文件并获取响应
            received_audio = await self.client.send_audio_file(input_file)
            if received_audio:
                print(f"总共接收到音频数据: {len(received_audio)} 字节")
                # 转换为WAV格式保存（适配树莓派播放）
                AudioProcessor.create_wav_file(
                    received_audio, 
                    output_file,
                    sample_rate=24000,  # 豆包返回的音频采样率
                    channels=1,
                    sampwidth=2  # 16-bit
                )
                print(f"响应音频已保存到: {output_file}")
                # 显示文件信息
                file_size = os.path.getsize(output_file)
                print(f"输出文件大小: {file_size} 字节")
            else:
                print("警告: 未接收到音频响应")
            return output_file
        except Exception as e:
            print(f"处理音频文件时出错: {e}")
            import traceback
            traceback.print_exc()
            raise
        finally:
            await self.client.close()
 async def main():
    """测试函数"""
    import argparse
    parser = argparse.ArgumentParser(description="豆包音频处理测试")
    parser.add_argument("--input", type=str, required=True, help="输入音频文件路径")
    parser.add_argument("--output", type=str, help="输出音频文件路径")
    args = parser.parse_args()
    processor = DoubaoProcessor()
    try:
        output_file = await processor.process_audio_file(args.input, args.output)
        print(f"处理完成，输出文件: {output_file}")
    except Exception as e:
        print(f"处理失败: {e}")
 if __name__ == "__main__":
    asyncio.run(main())
--- a/doubao_final_test.py
+++ b/doubao_final_test.py
@ -0,0 +1,425 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 简化测试版本
 专门测试完整的音频上传和TTS音频下载流程
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import struct
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 # 直接复制原始豆包代码的协议常量
 PROTOCOL_VERSION = 0b0001
 CLIENT_FULL_REQUEST = 0b0001
 CLIENT_AUDIO_ONLY_REQUEST = 0b0010
 SERVER_FULL_RESPONSE = 0b1001
 SERVER_ACK = 0b1011
 SERVER_ERROR_RESPONSE = 0b1111
 NO_SEQUENCE = 0b0000
 POS_SEQUENCE = 0b0001
 MSG_WITH_EVENT = 0b0100
 NO_SERIALIZATION = 0b0000
 JSON = 0b0001
 GZIP = 0b0001
 def generate_header(
        version=PROTOCOL_VERSION,
        message_type=CLIENT_FULL_REQUEST,
        message_type_specific_flags=MSG_WITH_EVENT,
        serial_method=JSON,
        compression_type=GZIP,
        reserved_data=0x00,
        extension_header=bytes()
 ):
    """直接复制原始豆包代码的generate_header函数"""
    header = bytearray()
    header_size = int(len(extension_header) / 4) + 1
    header.append((version << 4) | header_size)
    header.append((message_type << 4) | message_type_specific_flags)
    header.append((serial_method << 4) | compression_type)
    header.append(reserved_data)
    header.extend(extension_header)
    return header
 class DoubaoConfig:
    """豆包配置"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
 class DoubaoClient:
    """豆包客户端 - 基于原始代码"""
    def __init__(self, config: DoubaoConfig):
        self.config = config
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.config.base_url}")
        try:
            self.ws = await websockets.connect(
                self.config.base_url,
                additional_headers=self.config.get_headers(),
                ping_interval=None
            )
            # 获取log_id
            if hasattr(self.ws, 'response_headers'):
                self.log_id = self.ws.response_headers.get("X-Tt-Logid")
            elif hasattr(self.ws, 'headers'):
                self.log_id = self.ws.headers.get("X-Tt-Logid")
            print(f"连接成功, log_id: {self.log_id}")
            # 发送StartConnection请求
            await self._send_start_connection()
            # 发送StartSession请求
            await self._send_start_session()
        except Exception as e:
            print(f"连接失败: {e}")
            raise
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        print("发送StartConnection请求...")
        request = bytearray(generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartConnection响应长度: {len(response)}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        print("发送StartSession请求...")
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 30,
                    "input_mod": "audio",
                },
            },
        }
        request = bytearray(generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartSession响应长度: {len(response)}")
        # 等待一会确保会话完全建立
        await asyncio.sleep(1.0)
    async def task_request(self, audio: bytes) -> None:
        """直接复制原始豆包代码的task_request方法"""
        task_request = bytearray(
            generate_header(message_type=CLIENT_AUDIO_ONLY_REQUEST,
                             serial_method=NO_SERIALIZATION))
        task_request.extend(int(200).to_bytes(4, 'big'))
        task_request.extend((len(self.session_id)).to_bytes(4, 'big'))
        task_request.extend(str.encode(self.session_id))
        payload_bytes = gzip.compress(audio)
        task_request.extend((len(payload_bytes)).to_bytes(4, 'big'))  # payload size(4 bytes)
        task_request.extend(payload_bytes)
        await self.ws.send(task_request)
    async def test_full_dialog(self) -> None:
        """测试完整对话流程"""
        print("开始完整对话测试...")
        # 读取真实的录音文件
        try:
            import wave
            with wave.open("recording_20250920_135137.wav", 'rb') as wf:
                # 读取前5秒的音频数据
                total_frames = wf.getnframes()
                frames_to_read = min(total_frames, 80000)  # 5秒
                audio_data = wf.readframes(frames_to_read)
                print(f"读取真实音频数据: {len(audio_data)} 字节")
                print(f"音频参数: 采样率={wf.getframerate()}, 通道数={wf.getnchannels()}, 采样宽度={wf.getsampwidth()}")
        except Exception as e:
            print(f"读取音频文件失败: {e}")
            return
        print(f"音频数据大小: {len(audio_data)}")
        try:
            # 发送音频数据
            print("发送音频数据...")
            await self.task_request(audio_data)
            print("音频数据发送成功")
            # 等待语音识别响应
            print("等待语音识别响应...")
            response = await asyncio.wait_for(self.ws.recv(), timeout=15.0)
            print(f"收到ASR响应，长度: {len(response)}")
            # 解析ASR响应
            if len(response) >= 4:
                protocol_version = response[0] >> 4
                header_size = response[0] & 0x0f
                message_type = response[1] >> 4
                flags = response[1] & 0x0f
                print(f"ASR响应协议: version={protocol_version}, header_size={header_size}, message_type={message_type}, flags={flags}")
                if message_type == 9:  # SERVER_FULL_RESPONSE
                    payload_start = header_size * 4
                    payload = response[payload_start:]
                    if len(payload) >= 4:
                        event = int.from_bytes(payload[:4], 'big')
                        print(f"ASR Event: {event}")
                        if len(payload) >= 8:
                            session_id_len = int.from_bytes(payload[4:8], 'big')
                            if len(payload) >= 8 + session_id_len:
                                session_id = payload[8:8+session_id_len].decode()
                                print(f"Session ID: {session_id}")
                                if len(payload) >= 12 + session_id_len:
                                    payload_size = int.from_bytes(payload[8+session_id_len:12+session_id_len], 'big')
                                    payload_data = payload[12+session_id_len:12+session_id_len+payload_size]
                                    print(f"Payload size: {payload_size}")
                                    # 解析ASR结果
                                    try:
                                        asr_result = json.loads(payload_data.decode('utf-8'))
                                        print(f"ASR结果: {asr_result}")
                                        # 如果有识别结果，提取文本
                                        if 'results' in asr_result and asr_result['results']:
                                            text = asr_result['results'][0].get('text', '')
                                            print(f"识别文本: {text}")
                                    except Exception as e:
                                        print(f"解析ASR结果失败: {e}")
            # 持续等待TTS音频响应
            print("开始持续等待TTS音频响应...")
            response_count = 0
            max_responses = 10
            while response_count < max_responses:
                try:
                    print(f"等待第 {response_count + 1} 个响应...")
                    tts_response = await asyncio.wait_for(self.ws.recv(), timeout=30.0)
                    print(f"收到响应 {response_count + 1}，长度: {len(tts_response)}")
                    # 解析响应
                    if len(tts_response) >= 4:
                        tts_version = tts_response[0] >> 4
                        tts_header_size = tts_response[0] & 0x0f
                        tts_message_type = tts_response[1] >> 4
                        tts_flags = tts_response[1] & 0x0f
                        print(f"响应协议: version={tts_version}, header_size={tts_header_size}, message_type={tts_message_type}, flags={tts_flags}")
                        if tts_message_type == 11:  # SERVER_ACK (包含TTS音频)
                            tts_payload_start = tts_header_size * 4
                            tts_payload = tts_response[tts_payload_start:]
                            if len(tts_payload) >= 12:
                                tts_event = int.from_bytes(tts_payload[:4], 'big')
                                tts_session_len = int.from_bytes(tts_payload[4:8], 'big')
                                tts_session = tts_payload[8:8+tts_session_len].decode()
                                tts_audio_size = int.from_bytes(tts_payload[8+tts_session_len:12+tts_session_len], 'big')
                                tts_audio_data = tts_payload[12+tts_session_len:12+tts_session_len+tts_audio_size]
                                print(f"Event: {tts_event}")
                                print(f"音频数据大小: {tts_audio_size}")
                                if tts_audio_size > 0:
                                    print("找到TTS音频数据！")
                                    # 尝试解压缩TTS音频
                                    try:
                                        decompressed_tts = gzip.decompress(tts_audio_data)
                                        print(f"解压缩后TTS音频大小: {len(decompressed_tts)}")
                                        # 创建WAV文件
                                        sample_rate = 24000
                                        channels = 1
                                        sampwidth = 2
                                        with wave.open(f'tts_response_{response_count}.wav', 'wb') as wav_file:
                                            wav_file.setnchannels(channels)
                                            wav_file.setsampwidth(sampwidth)
                                            wav_file.setframerate(sample_rate)
                                            wav_file.writeframes(decompressed_tts)
                                        print(f"成功创建TTS WAV文件: tts_response_{response_count}.wav")
                                        print(f"音频参数: {sample_rate}Hz, {channels}通道, {sampwidth*8}-bit")
                                        # 显示文件信息
                                        if os.path.exists(f'tts_response_{response_count}.wav'):
                                            file_size = os.path.getsize(f'tts_response_{response_count}.wav')
                                            duration = file_size / (sample_rate * channels * sampwidth)
                                            print(f"WAV文件大小: {file_size} 字节")
                                            print(f"音频时长: {duration:.2f} 秒")
                                        # 成功获取音频，退出循环
                                        break
                                    except Exception as tts_e:
                                        print(f"TTS音频解压缩失败: {tts_e}")
                                        # 保存原始数据
                                        with open(f'tts_response_audio_{response_count}.raw', 'wb') as f:
                                            f.write(tts_audio_data)
                                        print(f"原始TTS音频数据已保存到 tts_response_audio_{response_count}.raw")
                        elif tts_message_type == 9:  # SERVER_FULL_RESPONSE
                            tts_payload_start = tts_header_size * 4
                            tts_payload = tts_response[tts_payload_start:]
                            if len(tts_payload) >= 4:
                                event = int.from_bytes(tts_payload[:4], 'big')
                                print(f"Event: {event}")
                                if event in [451, 359]:  # ASR结果或TTS结束
                                    # 解析payload
                                    if len(tts_payload) >= 8:
                                        session_id_len = int.from_bytes(tts_payload[4:8], 'big')
                                        if len(tts_payload) >= 8 + session_id_len:
                                            session_id = tts_payload[8:8+session_id_len].decode()
                                            if len(tts_payload) >= 12 + session_id_len:
                                                payload_size = int.from_bytes(tts_payload[8+session_id_len:12+session_id_len], 'big')
                                                payload_data = tts_payload[12+session_id_len:12+session_id_len+payload_size]
                                                try:
                                                    json_data = json.loads(payload_data.decode('utf-8'))
                                                    print(f"JSON数据: {json_data}")
                                                    # 如果是ASR结果
                                                    if 'results' in json_data:
                                                        text = json_data['results'][0].get('text', '')
                                                        print(f"识别文本: {text}")
                                                    # 如果是TTS结束标记
                                                    if event == 359:
                                                        print("TTS响应结束")
                                                        break
                                                except Exception as e:
                                                    print(f"解析JSON失败: {e}")
                                                    # 保存原始数据
                                                    with open(f'tts_response_{response_count}.raw', 'wb') as f:
                                                        f.write(payload_data)
                            # 保存完整响应用于调试
                            with open(f'tts_response_full_{response_count}.raw', 'wb') as f:
                                f.write(tts_response)
                            print(f"完整响应已保存到 tts_response_full_{response_count}.raw")
                    response_count += 1
                except asyncio.TimeoutError:
                    print(f"等待第 {response_count + 1} 个响应超时")
                    break
                except websockets.exceptions.ConnectionClosed:
                    print("连接已关闭")
                    break
            print(f"共收到 {response_count} 个响应")
        except asyncio.TimeoutError:
            print("等待响应超时")
        except websockets.exceptions.ConnectionClosed as e:
            print(f"连接关闭: {e}")
        except Exception as e:
            print(f"测试失败: {e}")
            import traceback
            traceback.print_exc()
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                await self.ws.close()
            except:
                pass
            print("连接已关闭")
 async def main():
    """测试函数"""
    config = DoubaoConfig()
    client = DoubaoClient(config)
    try:
        await client.connect()
        await client.test_full_dialog()
    except Exception as e:
        print(f"测试失败: {e}")
        import traceback
        traceback.print_exc()
    finally:
        await client.close()
 if __name__ == "__main__":
    asyncio.run(main())
--- a/doubao_original_test.py
+++ b/doubao_original_test.py
@ -0,0 +1,412 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 基于原始代码的测试版本
 直接使用原始豆包代码的核心逻辑
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import struct
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 # 直接复制原始豆包代码的协议常量
 PROTOCOL_VERSION = 0b0001
 CLIENT_FULL_REQUEST = 0b0001
 CLIENT_AUDIO_ONLY_REQUEST = 0b0010
 SERVER_FULL_RESPONSE = 0b1001
 SERVER_ACK = 0b1011
 SERVER_ERROR_RESPONSE = 0b1111
 NO_SEQUENCE = 0b0000
 POS_SEQUENCE = 0b0001
 MSG_WITH_EVENT = 0b0100
 NO_SERIALIZATION = 0b0000
 JSON = 0b0001
 GZIP = 0b0001
 def generate_header(
        version=PROTOCOL_VERSION,
        message_type=CLIENT_FULL_REQUEST,
        message_type_specific_flags=MSG_WITH_EVENT,
        serial_method=JSON,
        compression_type=GZIP,
        reserved_data=0x00,
        extension_header=bytes()
 ):
    """直接复制原始豆包代码的generate_header函数"""
    header = bytearray()
    header_size = int(len(extension_header) / 4) + 1
    header.append((version << 4) | header_size)
    header.append((message_type << 4) | message_type_specific_flags)
    header.append((serial_method << 4) | compression_type)
    header.append(reserved_data)
    header.extend(extension_header)
    return header
 class DoubaoConfig:
    """豆包配置"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
 class DoubaoClient:
    """豆包客户端 - 基于原始代码"""
    def __init__(self, config: DoubaoConfig):
        self.config = config
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.config.base_url}")
        try:
            self.ws = await websockets.connect(
                self.config.base_url,
                additional_headers=self.config.get_headers(),
                ping_interval=None
            )
            # 获取log_id
            if hasattr(self.ws, 'response_headers'):
                self.log_id = self.ws.response_headers.get("X-Tt-Logid")
            elif hasattr(self.ws, 'headers'):
                self.log_id = self.ws.headers.get("X-Tt-Logid")
            print(f"连接成功, log_id: {self.log_id}")
            # 发送StartConnection请求
            await self._send_start_connection()
            # 发送StartSession请求
            await self._send_start_session()
        except Exception as e:
            print(f"连接失败: {e}")
            raise
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        print("发送StartConnection请求...")
        request = bytearray(generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartConnection响应长度: {len(response)}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        print("发送StartSession请求...")
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 30,
                    "input_mod": "audio",
                },
            },
        }
        request = bytearray(generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartSession响应长度: {len(response)}")
        # 等待一会确保会话完全建立
        await asyncio.sleep(1.0)
    async def task_request(self, audio: bytes) -> None:
        """直接复制原始豆包代码的task_request方法"""
        task_request = bytearray(
            generate_header(message_type=CLIENT_AUDIO_ONLY_REQUEST,
                             serial_method=NO_SERIALIZATION))
        task_request.extend(int(200).to_bytes(4, 'big'))
        task_request.extend((len(self.session_id)).to_bytes(4, 'big'))
        task_request.extend(str.encode(self.session_id))
        payload_bytes = gzip.compress(audio)
        task_request.extend((len(payload_bytes)).to_bytes(4, 'big'))  # payload size(4 bytes)
        task_request.extend(payload_bytes)
        await self.ws.send(task_request)
    async def test_audio_request(self) -> None:
        """测试音频请求"""
        print("测试音频请求...")
        # 读取真实的录音文件
        try:
            import wave
            with wave.open("recording_20250920_135137.wav", 'rb') as wf:
                # 读取前10秒的音频数据（16000采样率 * 10秒 = 160000帧）
                total_frames = wf.getnframes()
                frames_to_read = min(total_frames, 160000)  # 最多10秒
                small_audio = wf.readframes(frames_to_read)
                print(f"读取真实音频数据: {len(small_audio)} 字节")
                print(f"音频参数: 采样率={wf.getframerate()}, 通道数={wf.getnchannels()}, 采样宽度={wf.getsampwidth()}")
                print(f"总帧数: {total_frames}, 读取帧数: {frames_to_read}")
        except Exception as e:
            print(f"读取音频文件失败: {e}")
            # 如果读取失败，使用静音数据
            small_audio = b'\x00' * 3200
        print(f"音频数据大小: {len(small_audio)}")
        try:
            # 发送完整的音频数据块
            print(f"发送完整的音频数据块...")
            await self.task_request(small_audio)
            print(f"音频数据块发送成功")
            print("等待语音识别响应...")
            # 等待更长时间的响应（语音识别可能需要更长时间）
            response = await asyncio.wait_for(self.ws.recv(), timeout=15.0)
            print(f"收到响应，长度: {len(response)}")
            # 解析响应
            try:
                if len(response) >= 4:
                    protocol_version = response[0] >> 4
                    header_size = response[0] & 0x0f
                    message_type = response[1] >> 4
                    message_type_specific_flags = response[1] & 0x0f
                    print(f"响应协议信息: version={protocol_version}, header_size={header_size}, message_type={message_type}, flags={message_type_specific_flags}")
                    # 解析payload
                    payload_start = header_size * 4
                    payload = response[payload_start:]
                    if message_type == 9:  # SERVER_FULL_RESPONSE
                        print("收到SERVER_FULL_RESPONSE！")
                        if len(payload) >= 4:
                            # 解析event
                            event = int.from_bytes(payload[:4], 'big')
                            print(f"Event: {event}")
                            # 解析session_id
                            if len(payload) >= 8:
                                session_id_len = int.from_bytes(payload[4:8], 'big')
                                if len(payload) >= 8 + session_id_len:
                                    session_id = payload[8:8+session_id_len].decode()
                                    print(f"Session ID: {session_id}")
                                    # 解析payload size和data
                                    if len(payload) >= 12 + session_id_len:
                                        payload_size = int.from_bytes(payload[8+session_id_len:12+session_id_len], 'big')
                                        payload_data = payload[12+session_id_len:12+session_id_len+payload_size]
                                        print(f"Payload size: {payload_size}")
                                        # 如果包含音频数据，保存到文件
                                        if len(payload_data) > 0:
                                            print(f"收到数据: {len(payload_data)} 字节")
                                            # 保存原始音频数据
                                            with open('response_audio.raw', 'wb') as f:
                                                f.write(payload_data)
                                            print("音频数据已保存到 response_audio.raw")
                                            # 尝试解析JSON数据
                                            try:
                                                import json
                                                json_data = json.loads(payload_data.decode('utf-8'))
                                                print(f"JSON数据: {json_data}")
                                                # 如果是语音识别任务开始，继续等待音频响应
                                                if 'asr_task_id' in json_data:
                                                    print("语音识别任务开始，继续等待音频响应...")
                                                    try:
                                                        # 等待音频响应
                                                        audio_response = await asyncio.wait_for(self.ws.recv(), timeout=20.0)
                                                        print(f"收到音频响应，长度: {len(audio_response)}")
                                                        # 解析音频响应
                                                        if len(audio_response) >= 4:
                                                            audio_version = audio_response[0] >> 4
                                                            audio_header_size = audio_response[0] & 0x0f
                                                            audio_message_type = audio_response[1] >> 4
                                                            audio_flags = audio_response[1] & 0x0f
                                                            print(f"音频响应协议信息: version={audio_version}, header_size={audio_header_size}, message_type={audio_message_type}, flags={audio_flags}")
                                                            if audio_message_type == 9:  # SERVER_FULL_RESPONSE (包含TTS音频)
                                                                audio_payload_start = audio_header_size * 4
                                                                audio_payload = audio_response[audio_payload_start:]
                                                                if len(audio_payload) >= 12:
                                                                    # 解析event和session_id
                                                                    audio_event = int.from_bytes(audio_payload[:4], 'big')
                                                                    audio_session_len = int.from_bytes(audio_payload[4:8], 'big')
                                                                    audio_session = audio_payload[8:8+audio_session_len].decode()
                                                                    audio_data_size = int.from_bytes(audio_payload[8+audio_session_len:12+audio_session_len], 'big')
                                                                    audio_data = audio_payload[12+audio_session_len:12+audio_session_len+audio_data_size]
                                                                    print(f"音频Event: {audio_event}")
                                                                    print(f"音频数据大小: {audio_data_size}")
                                                                    if audio_data_size > 0:
                                                                        # 保存原始音频数据
                                                                        with open('tts_response_audio.raw', 'wb') as f:
                                                                            f.write(audio_data)
                                                                        print(f"TTS音频数据已保存到 tts_response_audio.raw")
                                                                        # 尝试解析音频数据（可能是JSON或GZIP压缩的音频）
                                                                        try:
                                                                            # 首先尝试解压缩
                                                                            import gzip
                                                                            decompressed_audio = gzip.decompress(audio_data)
                                                                            print(f"解压缩后音频数据大小: {len(decompressed_audio)}")
                                                                            with open('tts_response_audio_decompressed.raw', 'wb') as f:
                                                                                f.write(decompressed_audio)
                                                                            print("解压缩的音频数据已保存")
                                                                            # 创建WAV文件供树莓派播放
                                                                            import wave
                                                                            import struct
                                                                            # 豆包返回的音频是24000Hz, 16-bit, 单声道
                                                                            sample_rate = 24000
                                                                            channels = 1
                                                                            sampwidth = 2  # 16-bit = 2 bytes
                                                                            with wave.open('tts_response.wav', 'wb') as wav_file:
                                                                                wav_file.setnchannels(channels)
                                                                                wav_file.setsampwidth(sampwidth)
                                                                                wav_file.setframerate(sample_rate)
                                                                                wav_file.writeframes(decompressed_audio)
                                                                            print("已创建WAV文件: tts_response.wav")
                                                                            print(f"音频参数: {sample_rate}Hz, {channels}通道, {sampwidth*8}-bit")
                                                                        except Exception as audio_e:
                                                                            print(f"音频数据处理失败: {audio_e}")
                                                                            # 如果解压缩失败，直接保存原始数据
                                                                            with open('tts_response_audio_original.raw', 'wb') as f:
                                                                                f.write(audio_data)
                                                            elif audio_message_type == 11:  # SERVER_ACK
                                                                print("收到SERVER_ACK音频响应")
                                                                # 处理SERVER_ACK格式的音频响应
                                                                audio_payload_start = audio_header_size * 4
                                                                audio_payload = audio_response[audio_payload_start:]
                                                                print(f"音频payload长度: {len(audio_payload)}")
                                                                with open('tts_response_ack.raw', 'wb') as f:
                                                                    f.write(audio_payload)
                                                    except asyncio.TimeoutError:
                                                        print("等待音频响应超时")
                                            except Exception as json_e:
                                                print(f"解析JSON失败: {json_e}")
                                                # 如果不是JSON，可能是音频数据，直接保存
                                                with open('response_audio.raw', 'wb') as f:
                                                    f.write(payload_data)
                    elif message_type == 11:  # SERVER_ACK
                        print("收到SERVER_ACK响应！")
                    elif message_type == 15:  # SERVER_ERROR_RESPONSE
                        print("收到错误响应")
                        if len(response) > 8:
                            error_code = int.from_bytes(response[4:8], 'big')
                            print(f"错误代码: {error_code}")
            except Exception as e:
                print(f"解析响应失败: {e}")
                import traceback
                traceback.print_exc()
        except asyncio.TimeoutError:
            print("等待响应超时")
        except websockets.exceptions.ConnectionClosed as e:
            print(f"连接关闭: {e}")
        except Exception as e:
            print(f"发送音频请求失败: {e}")
            raise
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                await self.ws.close()
            except:
                pass
            print("连接已关闭")
 async def main():
    """测试函数"""
    config = DoubaoConfig()
    client = DoubaoClient(config)
    try:
        await client.connect()
        await client.test_audio_request()
    except Exception as e:
        print(f"测试失败: {e}")
        import traceback
        traceback.print_exc()
    finally:
        await client.close()
 if __name__ == "__main__":
    asyncio.run(main())
--- a/doubao_simple.py
+++ b/doubao_simple.py
@ -0,0 +1,412 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 最终简化版本
 实现音频文件上传和TTS音频下载的完整流程
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 # 协议常量
 PROTOCOL_VERSION = 0b0001
 CLIENT_FULL_REQUEST = 0b0001
 CLIENT_AUDIO_ONLY_REQUEST = 0b0010
 SERVER_FULL_RESPONSE = 0b1001
 SERVER_ACK = 0b1011
 SERVER_ERROR_RESPONSE = 0b1111
 NO_SEQUENCE = 0b0000
 MSG_WITH_EVENT = 0b0100
 NO_SERIALIZATION = 0b0000
 JSON = 0b0001
 GZIP = 0b0001
 def generate_header(
        version=PROTOCOL_VERSION,
        message_type=CLIENT_FULL_REQUEST,
        message_type_specific_flags=MSG_WITH_EVENT,
        serial_method=JSON,
        compression_type=GZIP,
        reserved_data=0x00,
        extension_header=bytes()
 ):
    """生成协议头"""
    header = bytearray()
    header_size = int(len(extension_header) / 4) + 1
    header.append((version << 4) | header_size)
    header.append((message_type << 4) | message_type_specific_flags)
    header.append((serial_method << 4) | compression_type)
    header.append(reserved_data)
    header.extend(extension_header)
    return header
 class DoubaoClient:
    """豆包客户端"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.base_url}")
        try:
            self.ws = await websockets.connect(
                self.base_url,
                additional_headers=self.get_headers(),
                ping_interval=None
            )
            # 获取log_id
            if hasattr(self.ws, 'response_headers'):
                self.log_id = self.ws.response_headers.get("X-Tt-Logid")
            elif hasattr(self.ws, 'headers'):
                self.log_id = self.ws.headers.get("X-Tt-Logid")
            print(f"连接成功, log_id: {self.log_id}")
            # 发送StartConnection请求
            await self._send_start_connection()
            # 发送StartSession请求
            await self._send_start_session()
        except Exception as e:
            print(f"连接失败: {e}")
            raise
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        print("发送StartConnection请求...")
        request = bytearray(generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartConnection响应长度: {len(response)}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        print("发送StartSession请求...")
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 30,
                    "input_mod": "audio",
                },
            },
        }
        request = bytearray(generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartSession响应长度: {len(response)}")
        # 等待一会确保会话完全建立
        await asyncio.sleep(1.0)
    async def task_request(self, audio: bytes) -> None:
        """发送音频数据"""
        task_request = bytearray(
            generate_header(message_type=CLIENT_AUDIO_ONLY_REQUEST,
                             serial_method=NO_SERIALIZATION))
        task_request.extend(int(200).to_bytes(4, 'big'))
        task_request.extend((len(self.session_id)).to_bytes(4, 'big'))
        task_request.extend(str.encode(self.session_id))
        payload_bytes = gzip.compress(audio)
        task_request.extend((len(payload_bytes)).to_bytes(4, 'big'))
        task_request.extend(payload_bytes)
        await self.ws.send(task_request)
    def parse_response(self, response):
        """解析响应"""
        if len(response) < 4:
            return None
        protocol_version = response[0] >> 4
        header_size = response[0] & 0x0f
        message_type = response[1] >> 4
        flags = response[1] & 0x0f
        payload_start = header_size * 4
        payload = response[payload_start:]
        result = {
            'protocol_version': protocol_version,
            'header_size': header_size,
            'message_type': message_type,
            'flags': flags,
            'payload': payload,
            'payload_size': len(payload)
        }
        # 解析payload
        if len(payload) >= 4:
            result['event'] = int.from_bytes(payload[:4], 'big')
            if len(payload) >= 8:
                session_id_len = int.from_bytes(payload[4:8], 'big')
                if len(payload) >= 8 + session_id_len:
                    result['session_id'] = payload[8:8+session_id_len].decode()
                    if len(payload) >= 12 + session_id_len:
                        data_size = int.from_bytes(payload[8+session_id_len:12+session_id_len], 'big')
                        result['data_size'] = data_size
                        result['data'] = payload[12+session_id_len:12+session_id_len+data_size]
                        # 尝试解析JSON数据
                        try:
                            result['json_data'] = json.loads(result['data'].decode('utf-8'))
                        except:
                            pass
        return result
    async def process_audio_file(self, input_file: str, output_file: str) -> bool:
        """处理音频文件：上传并获得TTS响应"""
        print(f"开始处理音频文件: {input_file}")
        try:
            # 读取输入音频文件
            with wave.open(input_file, 'rb') as wf:
                audio_data = wf.readframes(wf.getnframes())
                print(f"读取音频数据: {len(audio_data)} 字节")
                print(f"音频参数: {wf.getframerate()}Hz, {wf.getnchannels()}通道, {wf.getsampwidth()*8}-bit")
            # 发送音频数据
            print("发送音频数据...")
            await self.task_request(audio_data)
            print("音频数据发送成功")
            # 接收响应序列
            print("开始接收响应...")
            audio_chunks = []
            response_count = 0
            max_responses = 20
            while response_count < max_responses:
                try:
                    response = await asyncio.wait_for(self.ws.recv(), timeout=30.0)
                    response_count += 1
                    parsed = self.parse_response(response)
                    if not parsed:
                        continue
                    print(f"响应 {response_count}: message_type={parsed['message_type']}, event={parsed.get('event', 'N/A')}, size={parsed['payload_size']}")
                    # 处理不同类型的响应
                    if parsed['message_type'] == 11:  # SERVER_ACK - 可能包含音频
                        if 'data' in parsed and parsed['data_size'] > 0:
                            audio_chunks.append(parsed['data'])
                            print(f"收集到音频块: {parsed['data_size']} 字节")
                    elif parsed['message_type'] == 9:  # SERVER_FULL_RESPONSE
                        event = parsed.get('event', 0)
                        if event == 350:  # TTS开始
                            print("TTS音频生成开始")
                        elif event == 359:  # TTS结束
                            print("TTS音频生成结束")
                            break
                        elif event == 451:  # ASR结果
                            if 'json_data' in parsed and 'results' in parsed['json_data']:
                                text = parsed['json_data']['results'][0].get('text', '')
                                print(f"语音识别结果: {text}")
                        elif event == 550:  # TTS音频数据
                            if 'data' in parsed and parsed['data_size'] > 0:
                                # 检查是否是JSON（音频元数据）还是实际音频数据
                                try:
                                    json.loads(parsed['data'].decode('utf-8'))
                                    print("收到TTS音频元数据")
                                except:
                                    # 不是JSON，可能是音频数据
                                    audio_chunks.append(parsed['data'])
                                    print(f"收集到TTS音频块: {parsed['data_size']} 字节")
                except asyncio.TimeoutError:
                    print(f"等待响应 {response_count + 1} 超时")
                    break
                except websockets.exceptions.ConnectionClosed:
                    print("连接已关闭")
                    break
            print(f"共收到 {response_count} 个响应，收集到 {len(audio_chunks)} 个音频块")
            # 合并音频数据
            if audio_chunks:
                combined_audio = b''.join(audio_chunks)
                print(f"合并后的音频数据: {len(combined_audio)} 字节")
                # 检查是否是GZIP压缩数据
                try:
                    decompressed = gzip.decompress(combined_audio)
                    print(f"解压缩后音频数据: {len(decompressed)} 字节")
                    audio_to_write = decompressed
                except:
                    print("音频数据不是GZIP压缩格式，直接使用原始数据")
                    audio_to_write = combined_audio
                # 创建输出WAV文件
                try:
                    # 豆包返回的音频是32位浮点格式，需要转换为16位整数
                    import struct
                    # 检查音频数据长度是否是4的倍数（32位浮点）
                    if len(audio_to_write) % 4 != 0:
                        print(f"警告：音频数据长度 {len(audio_to_write)} 不是4的倍数，截断到最近的倍数")
                        audio_to_write = audio_to_write[:len(audio_to_write) // 4 * 4]
                    # 将32位浮点转换为16位整数
                    float_count = len(audio_to_write) // 4
                    int16_data = bytearray(float_count * 2)
                    for i in range(float_count):
                        # 读取32位浮点数（小端序）
                        float_value = struct.unpack('<f', audio_to_write[i*4:i*4+4])[0]
                        # 将浮点数限制在[-1.0, 1.0]范围内
                        float_value = max(-1.0, min(1.0, float_value))
                        # 转换为16位整数
                        int16_value = int(float_value * 32767)
                        # 写入16位整数（小端序）
                        int16_data[i*2:i*2+2] = struct.pack('<h', int16_value)
                    # 创建WAV文件
                    with wave.open(output_file, 'wb') as wav_file:
                        wav_file.setnchannels(1)
                        wav_file.setsampwidth(2)
                        wav_file.setframerate(24000)
                        wav_file.writeframes(int16_data)
                    print(f"成功创建输出文件: {output_file}")
                    print(f"音频转换: {float_count} 个32位浮点样本 -> {len(int16_data)//2} 个16位整数样本")
                    # 显示文件信息
                    if os.path.exists(output_file):
                        file_size = os.path.getsize(output_file)
                        duration = file_size / (24000 * 1 * 2)
                        print(f"输出文件大小: {file_size} 字节，时长: {duration:.2f} 秒")
                    return True
                except Exception as e:
                    print(f"创建WAV文件失败: {e}")
                    # 保存原始数据
                    with open(output_file + '.raw', 'wb') as f:
                        f.write(audio_to_write)
                    print(f"原始音频数据已保存到: {output_file}.raw")
                    return False
            else:
                print("未收到音频数据")
                return False
        except Exception as e:
            print(f"处理音频文件失败: {e}")
            import traceback
            traceback.print_exc()
            return False
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                await self.ws.close()
            except:
                pass
            print("连接已关闭")
 async def main():
    """主函数"""
    client = DoubaoClient()
    try:
        await client.connect()
        # 处理录音文件
        input_file = "recording_20250920_135137.wav"
        output_file = "tts_output.wav"
        success = await client.process_audio_file(input_file, output_file)
        if success:
            print("音频处理成功！")
        else:
            print("音频处理失败")
    except Exception as e:
        print(f"程序失败: {e}")
        import traceback
        traceback.print_exc()
    finally:
        await client.close()
 if __name__ == "__main__":
    asyncio.run(main())
--- a/doubao_test.py
+++ b/doubao_test.py
@ -0,0 +1,303 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 协议测试版本
 专门测试协议格式问题
 """
 import asyncio
 import gzip
 import json
 import uuid
 import wave
 import struct
 import time
 import os
 from typing import Dict, Any, Optional
 import websockets
 class DoubaoConfig:
    """豆包配置"""
    def __init__(self):
        self.base_url = "wss://openspeech.bytedance.com/api/v3/realtime/dialogue"
        self.app_id = "8718217928"
        self.access_key = "ynJMX-5ix1FsJvswC9KTNlGUdubcchqc"
        self.app_key = "PlgvMymc7f3tQnJ6"
        self.resource_id = "volc.speech.dialog"
    def get_headers(self) -> Dict[str, str]:
        """获取请求头"""
        return {
            "X-Api-App-ID": self.app_id,
            "X-Api-Access-Key": self.access_key,
            "X-Api-Resource-Id": self.resource_id,
            "X-Api-App-Key": self.app_key,
            "X-Api-Connect-Id": str(uuid.uuid4()),
        }
 class DoubaoProtocol:
    """豆包协议处理"""
    # 协议常量
    PROTOCOL_VERSION = 0b0001
    CLIENT_FULL_REQUEST = 0b0001
    CLIENT_AUDIO_ONLY_REQUEST = 0b0010
    SERVER_FULL_RESPONSE = 0b1001
    SERVER_ACK = 0b1011
    SERVER_ERROR_RESPONSE = 0b1111
    NO_SEQUENCE = 0b0000
    POS_SEQUENCE = 0b0001
    MSG_WITH_EVENT = 0b0100
    JSON = 0b0001
    NO_SERIALIZATION = 0b0000
    GZIP = 0b0001
    @classmethod
    def generate_header(cls, message_type=CLIENT_FULL_REQUEST, 
                       message_type_specific_flags=MSG_WITH_EVENT,
                       serial_method=JSON, compression_type=GZIP) -> bytes:
        """生成协议头"""
        header = bytearray()
        header.append((cls.PROTOCOL_VERSION << 4) | 1)  # version + header_size
        header.append((message_type << 4) | message_type_specific_flags)
        header.append((serial_method << 4) | compression_type)
        header.append(0x00)  # reserved
        return bytes(header)
 class DoubaoClient:
    """豆包客户端"""
    def __init__(self, config: DoubaoConfig):
        self.config = config
        self.session_id = str(uuid.uuid4())
        self.ws = None
        self.log_id = ""
    async def connect(self) -> None:
        """建立WebSocket连接"""
        print(f"连接豆包服务器: {self.config.base_url}")
        try:
            self.ws = await websockets.connect(
                self.config.base_url,
                additional_headers=self.config.get_headers(),
                ping_interval=None
            )
            # 获取log_id
            if hasattr(self.ws, 'response_headers'):
                self.log_id = self.ws.response_headers.get("X-Tt-Logid")
            elif hasattr(self.ws, 'headers'):
                self.log_id = self.ws.headers.get("X-Tt-Logid")
            print(f"连接成功, log_id: {self.log_id}")
            # 发送StartConnection请求
            await self._send_start_connection()
            # 发送StartSession请求
            await self._send_start_session()
        except Exception as e:
            print(f"连接失败: {e}")
            raise
    async def _send_start_connection(self) -> None:
        """发送StartConnection请求"""
        print("发送StartConnection请求...")
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(1).to_bytes(4, 'big'))
        payload_bytes = b"{}"
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartConnection响应长度: {len(response)}")
    async def _send_start_session(self) -> None:
        """发送StartSession请求"""
        print("发送StartSession请求...")
        session_config = {
            "asr": {
                "extra": {
                    "end_smooth_window_ms": 1500,
                },
            },
            "tts": {
                "speaker": "zh_female_vv_jupiter_bigtts",
                "audio_config": {
                    "channel": 1, 
                    "format": "pcm", 
                    "sample_rate": 24000
                },
            },
            "dialog": {
                "bot_name": "豆包",
                "system_role": "你使用活泼灵动的女声，性格开朗，热爱生活。",
                "speaking_style": "你的说话风格简洁明了，语速适中，语调自然。",
                "location": {"city": "北京"},
                "extra": {
                    "strict_audit": False,
                    "audit_response": "支持客户自定义安全审核回复话术。",
                    "recv_timeout": 30,
                    "input_mod": "audio",
                },
            },
        }
        request = bytearray(DoubaoProtocol.generate_header())
        request.extend(int(100).to_bytes(4, 'big'))
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        payload_bytes = json.dumps(session_config).encode()
        payload_bytes = gzip.compress(payload_bytes)
        request.extend(len(payload_bytes).to_bytes(4, 'big'))
        request.extend(payload_bytes)
        await self.ws.send(request)
        response = await self.ws.recv()
        print(f"StartSession响应长度: {len(response)}")
        # 等待一会确保会话完全建立
        await asyncio.sleep(1.0)
    async def test_audio_request(self) -> None:
        """测试音频请求格式"""
        print("测试音频请求格式...")
        # 创建音频数据（静音）- 使用原始豆包代码的chunk大小
        small_audio = b'\x00' * 3200  # 原始豆包代码中的chunk大小
        # 完全按照原始豆包代码的格式构建请求，不进行任何填充
        header = bytearray()
        header.append((DoubaoProtocol.PROTOCOL_VERSION << 4) | 1)  # version + header_size
        header.append((DoubaoProtocol.CLIENT_AUDIO_ONLY_REQUEST << 4) | DoubaoProtocol.NO_SEQUENCE)
        header.append((DoubaoProtocol.NO_SERIALIZATION << 4) | DoubaoProtocol.GZIP)
        header.append(0x00)  # reserved
        request = bytearray(header)
        # 添加消息类型 (200 = task request)
        request.extend(int(200).to_bytes(4, 'big'))
        # 添加session_id
        request.extend(len(self.session_id).to_bytes(4, 'big'))
        request.extend(self.session_id.encode())
        # 压缩音频数据
        compressed_audio = gzip.compress(small_audio)
        # 添加payload size
        request.extend(len(compressed_audio).to_bytes(4, 'big'))
        # 添加压缩后的音频数据
        request.extend(compressed_audio)
        print(f"测试请求详细信息:")
        print(f"  - 音频原始大小: {len(small_audio)}")
        print(f"  - 音频压缩后大小: {len(compressed_audio)}")
        print(f"  - Session ID: {self.session_id} (长度: {len(self.session_id)})")
        print(f"  - 总请求大小: {len(request)}")
        print(f"  - 头部字节: {request[:4].hex()}")
        print(f"  - 消息类型: {int.from_bytes(request[4:8], 'big')}")
        print(f"  - Session ID长度: {int.from_bytes(request[8:12], 'big')}")
        print(f"  - Payload size: {int.from_bytes(request[12+len(self.session_id):16+len(self.session_id)], 'big')}")
        try:
            await self.ws.send(request)
            print("请求发送成功")
            # 等待响应
            response = await asyncio.wait_for(self.ws.recv(), timeout=3.0)
            print(f"收到响应，长度: {len(response)}")
            # 尝试解析响应
            try:
                protocol_version = response[0] >> 4
                header_size = response[0] & 0x0f
                message_type = response[1] >> 4
                message_type_specific_flags = response[1] & 0x0f
                serialization_method = response[2] >> 4
                message_compression = response[2] & 0x0f
                print(f"响应协议信息:")
                print(f"  - version={protocol_version}")
                print(f"  - header_size={header_size}")
                print(f"  - message_type={message_type} (15=SERVER_ERROR_RESPONSE)")
                print(f"  - message_type_specific_flags={message_type_specific_flags}")
                print(f"  - serialization_method={serialization_method}")
                print(f"  - message_compression={message_compression}")
                # 解析payload
                payload = response[header_size * 4:]
                if message_type == 15:  # SERVER_ERROR_RESPONSE
                    if len(payload) >= 8:
                        code = int.from_bytes(payload[:4], "big", signed=False)
                        payload_size = int.from_bytes(payload[4:8], "big", signed=False)
                        print(f"  - 错误代码: {code}")
                        print(f"  - payload大小: {payload_size}")
                        if len(payload) >= 8 + payload_size:
                            payload_msg = payload[8:8 + payload_size]
                            print(f"  - payload长度: {len(payload_msg)}")
                            if message_compression == 1:  # GZIP
                                try:
                                    payload_msg = gzip.decompress(payload_msg)
                                    print(f"  - 解压缩后长度: {len(payload_msg)}")
                                except:
                                    pass
                            try:
                                error_msg = json.loads(payload_msg.decode('utf-8'))
                                print(f"  - 错误信息: {error_msg}")
                            except:
                                print(f"  - 原始payload: {payload_msg}")
            except Exception as e:
                print(f"解析响应失败: {e}")
                import traceback
                traceback.print_exc()
        except Exception as e:
            print(f"发送测试请求失败: {e}")
            raise
    async def close(self) -> None:
        """关闭连接"""
        if self.ws:
            try:
                await self.ws.close()
            except:
                pass
            print("连接已关闭")
 async def main():
    """测试函数"""
    config = DoubaoConfig()
    client = DoubaoClient(config)
    try:
        await client.connect()
        await client.test_audio_request()
    except Exception as e:
        print(f"测试失败: {e}")
        import traceback
        traceback.print_exc()
    finally:
        await client.close()
 if __name__ == "__main__":
    asyncio.run(main())
--- a/test_doubao.py
+++ b/test_doubao.py
@ -0,0 +1,113 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 豆包音频处理模块 - 验证脚本
 验证完整的音频处理流程
 """
 import asyncio
 import subprocess
 import os
 from doubao_simple import DoubaoClient
 async def test_complete_workflow():
    """测试完整的工作流程"""
    print("=== 豆包音频处理模块验证 ===")
    # 检查输入文件
    input_file = "recording_20250920_135137.wav"
    if not os.path.exists(input_file):
        print(f"❌ 输入文件不存在: {input_file}")
        return False
    print(f"✅ 输入文件存在: {input_file}")
    # 检查文件信息
    try:
        result = subprocess.run(['file', input_file], capture_output=True, text=True)
        print(f"📁 输入文件格式: {result.stdout.strip()}")
    except:
        pass
    # 初始化客户端
    client = DoubaoClient()
    try:
        # 连接服务器
        print("🔌 连接豆包服务器...")
        await client.connect()
        print("✅ 连接成功")
        # 处理音频文件
        output_file = "tts_output.wav"
        print(f"🎵 处理音频文件: {input_file} -> {output_file}")
        success = await client.process_audio_file(input_file, output_file)
        if success:
            print("✅ 音频处理成功！")
            # 检查输出文件
            if os.path.exists(output_file):
                result = subprocess.run(['file', output_file], capture_output=True, text=True)
                print(f"📁 输出文件格式: {result.stdout.strip()}")
                # 获取文件大小
                file_size = os.path.getsize(output_file)
                print(f"📊 输出文件大小: {file_size:,} 字节")
                # 测试播放
                print("🔊 测试播放输出文件...")
                try:
                    subprocess.run(['aplay', output_file], timeout=10, check=True)
                    print("✅ 播放成功")
                except subprocess.TimeoutExpired:
                    print("✅ 播放完成（超时是正常的）")
                except subprocess.CalledProcessError as e:
                    print(f"⚠️ 播放出现问题: {e}")
                except FileNotFoundError:
                    print("⚠️ aplay命令不存在，跳过播放测试")
                return True
            else:
                print("❌ 输出文件未生成")
                return False
        else:
            print("❌ 音频处理失败")
            return False
    except Exception as e:
        print(f"❌ 测试失败: {e}")
        import traceback
        traceback.print_exc()
        return False
    finally:
        try:
            await client.close()
        except:
            pass
 def main():
    """主函数"""
    print("开始验证豆包音频处理模块...")
    success = asyncio.run(test_complete_workflow())
    if success:
        print("\n🎉 验证完成！豆包音频处理模块工作正常。")
        print("\n📋 功能总结:")
        print("  ✅ WebSocket连接建立")
        print("  ✅ 音频文件上传")
        print("  ✅ 语音识别")
        print("  ✅ TTS音频生成")
        print("  ✅ 音频格式转换（Float32 -> Int16）")
        print("  ✅ WAV文件生成")
        print("  ✅ 树莓派兼容播放")
    else:
        print("\n❌ 验证失败，请检查错误信息。")
    return success
 if __name__ == "__main__":
    main()