据智通财经APP获悉,QwenQwen官方微信公众号获悉,Qwen3-TTS全家桶开源已于1月22日上线。 Qwen3-TTS 是 Qwen 的开发者之声的权力者系列。全面支持音调克隆、音调创建、超高品质拟人语音生成、基于自然语言描述的语音控制,为开发者和用户提供最全面的语音生成能力。采用创新的Qwen3-TTS-Tokenizer-12Hz多码本音频编码器,Qwen3-TTS提供高效的音频信号压缩和强大的渲染能力。除了完全保留副语言信息和声学环境特征之外,轻量级的 DiT-free 架构还能够实现快速、高保真语音恢复。 Qwen3-TTS利用双pistato模型实现双向传输的最大生成速度,只需等待第一个音频中的一个字符包。整个Qwen3-TTS多码书模型系列都是开源的,包括1.7B和0.6B尺寸。 1.7B可以实现最大性能并具有强大的控制功能,而0.6B则平衡了性能和效率。该模型涵盖10种主要语言(中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语)和多种方言语音,满足全球应用的需求。同时,该模型具有强大的上下文理解能力,可以根据文本的指令和语义自适应地调整语气、节奏和情感表达,使得向文本中输入噪声的鲁棒性显着增强。它现已在 Github 上开源,也可以通过 AQwen IP 进行实验。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上共ntentツ(包括图像和视频,如有)由网易号用户上传和发布,网易号是一个仅提供信息存储服务的社交媒体平台。
近期评论