IndexTTS-2 問世：讓 AI 說話更像人，還能控制情感與時長

萌芽站長

近年來，人工智慧語音技術的進步令人驚嘆，從單純的文字轉語音（Text-to-Speech, TTS）到能模仿真人音色、帶有情感的朗讀，AI 語音已逐漸走進我們的日常生活。就在 2025 年 9 月，來自 IndexTTS 團隊的最新研究 IndexTTS-2 正式發布，這是一款結合「精準時長控制」與「高表達力情感合成」的自回歸零樣本 TTS 模型，被視為語音生成領域的重大突破。

語音時長可控，為配音與影音應用解鎖新可能

傳統的自回歸 TTS 模型雖然語音自然度高，但因逐 token 生成的限制，往往無法精準控制語音的長度。這在電影、廣告或教學影片等需要「口型同步」的場景裡，成為一大痛點。IndexTTS-2 則首度提出了一種通用方案，既能讓使用者「顯式指定生成的 token 數」來嚴格對齊時長，也能保持自由生成模式，保留自然的停頓與語調。這意味著未來在影片後製中，AI 不僅能模仿聲音，還能確保每一個字句與畫面完美對上。

音色與情感解耦：像真人一樣會「演戲」

過去的 AI 語音系統，要同時複刻某個人的聲音與表達不同情緒並不容易。IndexTTS-2 的突破之一，就是將「音色」與「情感」分開處理，讓 AI 能夠在保留說話人特徵的同時，自由注入不同的情緒。例如，只要輸入一段參考語音，AI 就能學會你的聲音；再搭配「悲傷」、「驚訝」或「歡快」的情感提示，合成出的語音就像你本人帶著真實情緒在講話。這種能力不僅對娛樂產業具有巨大吸引力，也能在客服、教育甚至心理療癒等場景中大展身手。

更穩定、更清晰，還能用文字描述情感

在強調情感表達的同時，AI 語音常出現「情感越強烈，清晰度越下降」的問題。IndexTTS-2 團隊引入了 GPT 潛在表示，並設計了三階段訓練策略，使模型在高情緒表達下仍能保持語音的穩定與清晰。此外，他們更進一步提供「文字描述控制情感」的功能。換句話說，你只要告訴模型「請用害怕的語氣說這句話」，AI 就能自動生成對應的語音，降低了專業操作的門檻，讓更多人能直觀地使用。

從研究到應用：AI 語音的新時代

根據官方的展示結果，IndexTTS-2 在詞錯誤率、音色相似度與情感真實度等多項指標上，都全面超越現有的零樣本 TTS 模型。對開發者而言，研究團隊已經將程式碼與預訓練權重釋出，並提供了 Hugging Face 與 ModelScope 等平台的模型下載，搭配 WebUI 與 Python API，任何人都能快速上手。對大眾而言，這意味著未來的影音平台、語音助理、遊戲角色、甚至線上教育，都可能因 IndexTTS-2 而變得更自然、更有「人味」。

結語

如果說過去的 AI 語音還只是「工具」，那麼 IndexTTS-2 的出現，則更像是一位能演繹情緒、能調整語速、能契合影像的「虛擬配音員」。它不僅是技術上的躍進，也代表我們正在邁向一個全新的語音互動時代。當我們下一次在影片裡聽到流暢又情感豐富的聲音時，很可能不再需要真人錄製，而是 AI 正在幕後默默完成表演。

參考資料

https://github.com/index-tts/index-tts/blob/main/docs/README_zh.md
https://github.com/chenpipi0807/ComfyUI-Index-TTS/tree/main