文本转语音 (TTS) + 语音转文本 (ASR), 走 OpenAI 兼容协议
通义千问基础 TTS, 中英多语, MP3 输出, 极速合成
支持 instructions 自然语言指令控制情感/语速, WAV 输出