动态交互论文摘要：IndexTTS2

传统自回归TTS模型面临两大难题：
1. 时长难控； 2. 情感与音色混淆。

时长控制难题：自回归模型逐字生成，难以精确控制总时长，这在视频配音等场景下是致命缺陷。

情感表达局限：情感和说话人音色特征往往被耦合在一起，无法独立控制，限制了模型的表现力。

提出新方法，实现“鱼与熊掌兼得”：既能精准控时长，又能自由生成。

双模时长控制：支持两种模式。
- 精确模式: 可手动指定生成token数量，实现精准时长控制。
- 自由模式: 模型自动生成，复现参考音频的自然韵律。

特征解耦：成功将情感表达与说话人音色分离，实现了对两者的独立控制。

这是IndexTTS2最亮眼的部分：实现了前所未有的情感控制粒度和灵活性。

跨说话人情感迁移：核心亮点！可以使用A说话人的音色，来表达B说话人的情感。这是对特征解耦的完美应用。

零样本情感复刻：无需训练，模型能完美复现输入音频里蕴含的情感特征。

自然语言控制情感：降低使用门槛！用户可以直接通过文本描述（如“用悲伤的语气说”）来引导模型生成带特定情感的语音。

强情感语音稳定性：提升清晰度！通过引入GPT潜在表示，即使在强烈情感（如愤怒、激动）下，也能保证生成语音的稳定和清晰。

全面优于现有SOTA模型，在多个关键指标上表现卓越。

客观指标：在词错率 (WER)、说话人相似度 (SS) 上取得更优结果。

情感保真度 (Emotional Fidelity)：这是关键！实验证明，模型在复现和生成指定情感方面的准确度非常高。

一文读懂 IndexTTS2