豆包語音大模型優(yōu)化小說演播 大咖音色媲美真人
近日,豆包大模字節(jié)跳動(dòng)的語音豆包語音大模型在小說演播場景取得突破,無需對話旁白、型優(yōu)情感、說演色媲角色等額外標(biāo)簽,咖音也能實(shí)現(xiàn)高表現(xiàn)力、豆包大模高自然度、語音高語義理解的型優(yōu)小說演播效果,聲音合成質(zhì)量媲美真人。說演色媲據(jù)了解,咖音市面上的豆包大模語音模型想要媲美一流主播細(xì)膩的演播效果,要做好旁白和角色的語音區(qū)分演繹、角色情感的型優(yōu)精確表達(dá)、不同角色的說演色媲區(qū)分度等。傳統(tǒng)的咖音小說TTS合成鏈路,需要提前給內(nèi)容打標(biāo)簽。豆包語音大模型基于Seed-TTS架構(gòu)優(yōu)化,則可以端到端直接合成出具有韻律、情感等細(xì)節(jié)的聲音。
圖:傳統(tǒng)語音模型和豆包語音大模型合成鏈路的區(qū)別 Seed-TTS是字節(jié)跳動(dòng)于2024年6月發(fā)布的語音生成基座模型。為提升語音表現(xiàn)力和長文本的理解能力,豆包語音大模型團(tuán)隊(duì)在Seed-TTS的數(shù)據(jù)、特征、上下文等結(jié)構(gòu)上做了改進(jìn)。比如數(shù)據(jù)上,音頻做章節(jié)級別處理,保證了長文下的語音一致性和連貫性;語音韻律和準(zhǔn)確性上,融合原始文本和前端信息,保證語氣詞、副語言、強(qiáng)調(diào)、弱讀等內(nèi)容自然流暢;額外加入的上下文理解能力,使得模型能夠感知更大范圍的語義信息,旁白和角色音表現(xiàn)更精準(zhǔn)到位。優(yōu)化后的豆包語音模型,能端到端演繹更多元的情感,在人物不同情緒上表現(xiàn)自然,而且可實(shí)現(xiàn)連續(xù)多輪對話,保證角色區(qū)分鮮明。豆包語音模型團(tuán)隊(duì)以王明軍、李滿超兩位演播圈大咖的聲音為基礎(chǔ),采用新技術(shù)合成的有聲書,已上線番茄小說,受到用戶的廣泛歡迎。