AI新星系列報道之五|武執政:打造有情商的語音大模型

在科幻電影《Her》《非誠勿擾3》中,AI或機器人能夠像真人一樣理解人類的情感、情緒、察言觀色,也能像人一樣自然交流。這些場景正在逐步從銀幕走向現實,而背后的關鍵技術正是語音交互的人工智能大模型。香港中文大學(深圳)武執政教授團隊,正在通過構建“有情商”的語音大模型,讓這一切變成現實。武執政教授,由人工智能“黃埔軍校”微軟亞洲研究院進入人工智能語音處理領域后,多年來一直深耕該領域,連續多年入選斯坦福大學“全球前2%頂尖科學家”,發布了多項具有世界影響力的開源系統和數據集,被全球超過700多家機構(包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等)采用。硅谷知名投資人Jason Calacanis給武教授的開源系統Amphion打出了“A+++”的最高評價!同時,武教授的科研成果已經落地到iPhone、Meta Quest等知名產品中。這與武教授給團隊設立的價值觀密不可分:“Be a leader, not a follower(成為引領者而非追隨者)”,“Be bold and fight for excellence(勇于追求卓越)”。
?
硅谷知名投資人Jason Calacanis給武教授的開源系統Amphion打出了“A+++”的最高評價!
?
學術有影響、產業有落地
打造百萬瀏覽量的MaskGCT語音大模型
武執政教授團隊聯合微軟、中科大推出了Natural Speech 3大模型,是語音生成大模型領域第一個將數據量提升到10萬小時級、參數量超過10億的大模型。武教授團隊也聯手趣丸科技聯合推出了新一代大規模聲音克隆TTS模型——MaskGCT。相較于現有的TTS大模型,MaskGCT在語音的相似度、質量和穩定性上進一步突破,尤其在語音相似度方面處于絕對領先地位。MaskGCT可以實現秒級超逼真的聲音克隆:提供3-5秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色,且能完整復刻語調、風格和情感;同時,MaskGCT是更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致;該模型展現出超自然的語音克隆、風格遷移以及跨語言生成能力,同時保持了較強的穩定性。目前,MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景,將加速國產短劇“走出去”,進一步推動中華文化在全球不同語境下的傳播。HuggingFace成員指出:“從來沒見過像MaskGCT這么讓人印象深刻的語音克隆模型”。目前,MaskGCT已經落地到趣丸科技的千音(海外版名為All Voice)平臺?https://www.all-voice.com/?。

HuggingFace成員指出:“從來沒見過像MaskGCT這么讓人印象深刻的語音克隆模型”
武教授指出:“我們要做頂天立地的研究。頂天是學術上要有影響力,立地是讓科研能解決實際問題,每篇文章的出發點都是要解決一個產業中面臨的難題。”武執政教授團隊與趣丸科技聯合建立了實驗室,推動語音技術在娛樂、教育等領域的應用,也與華為、字節跳動等企業建立了深度合作。

點擊圖片觀看MaskGCT聯合直播(突破2w+播放量)
?
從科幻到現實:讓AI有情商
武執政教授團隊的研究,不僅重新定義了語音交互技術的邊界,更為AI技術在人類生活中的應用打開了無限可能。“未來的AI不再只是工具,而是能夠理解我們、陪伴我們的‘伙伴’。我們希望通過技術的創新,讓AI真正融入人類社會,成為每個人的得力助手和知心朋友。”
2024年,武教授團隊與字節跳動豆包大模型團隊聯合研發的語音大模型Solla和全球首個語音情商評測基準SD-Eval發布。語音大模型Solla專注于提升AI對人類情感和語境的理解能力,讓AI能夠像一個知心伴侶般與人交流。SD-Eval是全球首個專注于語音大模型情商評測的基準,聚焦情緒、口音、年齡和背景聲四個維度,SD-Eval的發布填補了語音AI領域在情商評測方面的空白,為未來的語音AI研究提供了重要工具。SD-Eval的發布甚至早于OpenAI的ChatGPT-4o,成為語音大模型領域的重要里程碑。
武教授指出:“AI不僅需要完成任務,還需要更懂你,能聽出言外之意,也就是‘情商’。我們的目標是讓AI不僅聽懂人類的語言,還能體會我們的情緒,與我們一起傾聽這個世界。”
?
全球語音AI的開源推動者與學術引領者
武教授及其團隊高度重視開源社區貢獻及國際學術交流,積極參與和組織全球性學術活動。
Amphion開源系統:引領音頻生成的開源平臺
Amphion是一個由武執政教授團隊開發的開源音頻生成框架,自2023年底發布以來,其創新性和多功能性迅速引起了全球矚目。被譽為“未來音頻生成技術的標桿”,主要表現為:
技術創新:Amphion開源系統架構先進,該系統在音頻生成領域取得了突破性進展,支持多種音頻生成任務,包括文字轉語音(TTS)、歌聲合成(SVS)、語音轉換(VC)及文本到音樂(TTM)等多種音頻生成任務,尤其在歌聲合成和轉換方面展現出卓越性能,支持生成高質量的音頻和個性化音色,最新研究成果FACodec(與微軟、中科大合作)進一步推動了語音生成技術發展。
全球認可:首次發布alpha版本,未經任何公開宣傳便多次登上GitHub Trending榜單,收獲8500+星標,展現出強大的技術吸引力;技術報告發布首日即登上Huggingface Daily Paper榜首,獲得Huggingface聯合創始人兼CTO Julien Chaumond的關注,硅谷著名投資人Jason Calacanis(Uber第三位天使投資人)給予“A+++,這是未來”的高度評價,獲得Geeky Gadgets、MarkTechPost等國際媒體廣泛報道。


Emilia:被700多家單位采用的全球最大開源語音數據集
武執政教授敏銳地捕捉到語音大模型的發展趨勢,阻礙語音大模型發展的最重要瓶頸在于數據。因此,其團隊開發了最大的開源數據集Emilia,為全球語音大模型研究者提供了寶貴資源。Emilia是一個多樣化和高質量的語音生成數據集,覆蓋了超過10萬小時的語音數據,支持六種語言(中文、英語、德語、法語、日語和韓語),語音數據涵蓋脫口秀、訪談、辯論、體育解說等多種自然場景。Emilia已被全球700多家機構采用,包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等。Emilia成為HuggingFace音頻類排行榜最受喜愛榜(most liked)第一名和趨勢榜(trending)第一名。
全球語音AI的學術引領者
武教授發起并組織了第一屆聲紋識別欺騙檢測國際評測、第一屆語音轉換國際評測,組織了2019年語音合成國際評測(Blizzard Challenge 2019)。多次獲得最佳(學生)論文獎,廣東省人工智能產業協會科技進步二等獎等獎項。武教授現為IEEE語音與語言處理技術委員會委員,語音領域權威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大會主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權威學術會議做特邀報告,也在OpenMMLab、語音之家、智源社區等平臺進行技術分享,團隊成員受邀至多所高校進行學術交流,持續推動開源社區建設,促進技術創新與知識共享。
?
培養未來的AI領軍人才:
成為引領者而不是追隨者、勇于追求卓越
作為一名杰出的學術導師,武執政教授不僅在科研領域取得了卓越成就,還通過高水準的科研指導,為國際AI領域培養人才。武教授給團隊設立了價值觀:“Be a leader, not a follower(成為引領者而不是追隨者)”,“Be bold and fight for excellence(勇于追求卓越)”,激勵同學們做出有影響力的研究。武教授的學生在全球競爭中屢獲殊榮,多人進入國際頂級實驗室和企業實習與工作,在學術研究、行業實踐和國際化交流中表現出色,成為推動人工智能發展的新生力量。
武教授注重為學生提供廣闊的國際交流平臺,通過合作和學術訪問幫助學生擴展視野,提升科研能力,學生們受邀參加國際頂會ICML、ICASSP、INTERSPEECH等,發表高水平論文,并與來自全球的頂尖學者進行學術探討。
武教授說:“香港中文大學(深圳)之所以能夠培養出在國際舞臺發光的新生力量,主要是學校的老師都是在科研一線親自指導;同學們可以直接參與到與一線前沿企業的合作項目中,起點高;同時,同學們有機會與國際上的實驗室和研究者進行交流;此外,港中大(深圳)的課程是沒有規定必須按照固定的教材上課,這樣老師可以把最新的研究成果和前沿信息帶到課堂中來。”
?
走進中小學,普及人工智能
武教授除了教學、科研、產學研轉化,他也抽出時間面向中小學生科普。武教授指出:“人工智能非常貼近我們的生活,應該成為我們生活中的一部分。所以我們在做讓中小學生們感受到的人工智能技術時,也應該讓他們能夠聽懂,能夠啟發他們更多的‘稀奇古怪’的想法。”
武教授也受聘為彩田學校科學副校長,在彩田學校、中山紀念中學、天津振華中學等知名學校進行了科普講座,也在圖書城等地方面向更廣泛的群體科普人工智能。武教授也正在策劃一套面向中小學生的繪本讀物,讓我們一起期待吧。

武教授受聘為彩田學校科學副校長

武教授團隊參展中山紀念中學科技節,讓學生體驗語音克隆大模型
?
青年教授簡介

武執政博士現任香港中文大學(深圳)副教授、博導,港中大(深圳)-趣丸科技聯合實驗室主任。入選國家級青年人才,連續多次入選斯坦福大學“全球前2%頂尖科學家”、愛思唯爾“中國高被引學者”榜單。
他于南洋理工大學獲得博士學位,并在Meta(原Facebook)、蘋果、微軟亞洲研究院等機構從事學術研究和技術領導工作,參與創立多家公司(吸引超過6億人民幣投資)。武博士帶領開發了開源系統Merlin、Amphion及開源數據庫Emilia,被超過700多家單位(包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等)采用。他發起并組織了第一屆聲紋識別欺騙檢測國際評測、第一屆語音轉換國際評測,組織了2019年語音合成國際評測(Blizzard Challenge 2019)。多次獲得最佳(學生)論文獎,廣東省人工智能產業協會科技進步二等獎等獎項。武博士現為IEEE語音與語言處理技術委員會委員,語音領域權威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大會主席。
他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權威學術會議做特邀報告。