美高梅娱乐城返水,棋牌捕鱼作弊器,金沙集团app最新版视频打不开 (中国)·官方网站

在科幻電影《Her》《非誠勿擾3》中，AI或機器人能夠像真人一樣理解人類的情感、情緒、察言觀色，也能像人一樣自然交流。這些場景正在逐步從銀幕走向現實，而背后的關鍵技術正是語音交互的人工智能大模型。香港中文大學（深圳）武執政教授團隊，正在通過構建“有情商”的語音大模型，讓這一切變成現實。武執政教授，由人工智能“黃埔軍校”微軟亞洲研究院進入人工智能語音處理領域后，多年來一直深耕該領域，連續多年入選斯坦福大學“全球前2％頂尖科學家”，發布了多項具有世界影響力的開源系統和數據集，被全球超過700多家機構（包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等）采用。硅谷知名投資人Jason Calacanis給武教授的開源系統Amphion打出了“A+++”的最高評價！同時，武教授的科研成果已經落地到iPhone、Meta Quest等知名產品中。這與武教授給團隊設立的價值觀密不可分：“Be a leader, not a follower（成為引領者而非追隨者）”，“Be bold and fight for excellence（勇于追求卓越）”。

硅谷知名投資人Jason Calacanis給武教授的開源系統Amphion打出了“A+++”的最高評價！

學術有影響、產業有落地

打造百萬瀏覽量的MaskGCT語音大模型

武執政教授團隊聯合微軟、中科大推出了Natural Speech 3大模型，是語音生成大模型領域第一個將數據量提升到10萬小時級、參數量超過10億的大模型。武教授團隊也聯手趣丸科技聯合推出了新一代大規模聲音克隆TTS模型——MaskGCT。相較于現有的TTS大模型，MaskGCT在語音的相似度、質量和穩定性上進一步突破，尤其在語音相似度方面處于絕對領先地位。MaskGCT可以實現秒級超逼真的聲音克隆：提供3-5秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色，且能完整復刻語調、風格和情感；同時，MaskGCT是更精細可控的語音生成：可靈活調整生成語音的長度、語速和情緒，支持通過編輯文本編輯語音，并保持韻律、音色等方面的極度一致；該模型展現出超自然的語音克隆、風格遷移以及跨語言生成能力，同時保持了較強的穩定性。目前，MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景，將加速國產短劇“走出去”，進一步推動中華文化在全球不同語境下的傳播。HuggingFace成員指出：“從來沒見過像MaskGCT這么讓人印象深刻的語音克隆模型”。目前，MaskGCT已經落地到趣丸科技的千音（海外版名為All Voice）平臺?https://www.all-voice.com/?。

HuggingFace成員指出：“從來沒見過像MaskGCT這么讓人印象深刻的語音克隆模型”

武教授指出：“我們要做頂天立地的研究。頂天是學術上要有影響力，立地是讓科研能解決實際問題，每篇文章的出發點都是要解決一個產業中面臨的難題。”武執政教授團隊與趣丸科技聯合建立了實驗室，推動語音技術在娛樂、教育等領域的應用，也與華為、字節跳動等企業建立了深度合作。

點擊圖片觀看MaskGCT聯合直播（突破2w+播放量）

從科幻到現實：讓AI有情商

武執政教授團隊的研究，不僅重新定義了語音交互技術的邊界，更為AI技術在人類生活中的應用打開了無限可能。“未來的AI不再只是工具，而是能夠理解我們、陪伴我們的‘伙伴’。我們希望通過技術的創新，讓AI真正融入人類社會，成為每個人的得力助手和知心朋友。”

2024年，武教授團隊與字節跳動豆包大模型團隊聯合研發的語音大模型Solla和全球首個語音情商評測基準SD-Eval發布。語音大模型Solla專注于提升AI對人類情感和語境的理解能力，讓AI能夠像一個知心伴侶般與人交流。SD-Eval是全球首個專注于語音大模型情商評測的基準，聚焦情緒、口音、年齡和背景聲四個維度，SD-Eval的發布填補了語音AI領域在情商評測方面的空白，為未來的語音AI研究提供了重要工具。SD-Eval的發布甚至早于OpenAI的ChatGPT-4o，成為語音大模型領域的重要里程碑。

武教授指出：“AI不僅需要完成任務，還需要更懂你，能聽出言外之意，也就是‘情商’。我們的目標是讓AI不僅聽懂人類的語言，還能體會我們的情緒，與我們一起傾聽這個世界。”

全球語音AI的開源推動者與學術引領者

武教授及其團隊高度重視開源社區貢獻及國際學術交流，積極參與和組織全球性學術活動。

Amphion開源系統：引領音頻生成的開源平臺

Amphion是一個由武執政教授團隊開發的開源音頻生成框架，自2023年底發布以來，其創新性和多功能性迅速引起了全球矚目。被譽為“未來音頻生成技術的標桿”，主要表現為：

技術創新：Amphion開源系統架構先進，該系統在音頻生成領域取得了突破性進展，支持多種音頻生成任務，包括文字轉語音（TTS）、歌聲合成（SVS）、語音轉換（VC）及文本到音樂（TTM）等多種音頻生成任務，尤其在歌聲合成和轉換方面展現出卓越性能，支持生成高質量的音頻和個性化音色，最新研究成果FACodec（與微軟、中科大合作）進一步推動了語音生成技術發展。

全球認可：首次發布alpha版本，未經任何公開宣傳便多次登上GitHub Trending榜單，收獲8500+星標，展現出強大的技術吸引力；技術報告發布首日即登上Huggingface Daily Paper榜首，獲得Huggingface聯合創始人兼CTO Julien Chaumond的關注，硅谷著名投資人Jason Calacanis（Uber第三位天使投資人）給予“A+++，這是未來”的高度評價，獲得Geeky Gadgets、MarkTechPost等國際媒體廣泛報道。

Emilia：被700多家單位采用的全球最大開源語音數據集

武執政教授敏銳地捕捉到語音大模型的發展趨勢，阻礙語音大模型發展的最重要瓶頸在于數據。因此，其團隊開發了最大的開源數據集Emilia，為全球語音大模型研究者提供了寶貴資源。Emilia是一個多樣化和高質量的語音生成數據集，覆蓋了超過10萬小時的語音數據，支持六種語言（中文、英語、德語、法語、日語和韓語），語音數據涵蓋脫口秀、訪談、辯論、體育解說等多種自然場景。Emilia已被全球700多家機構采用，包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等。Emilia成為HuggingFace音頻類排行榜最受喜愛榜（most liked）第一名和趨勢榜（trending）第一名。

全球語音AI的學術引領者

武教授發起并組織了第一屆聲紋識別欺騙檢測國際評測、第一屆語音轉換國際評測，組織了2019年語音合成國際評測（Blizzard Challenge 2019）。多次獲得最佳（學生）論文獎，廣東省人工智能產業協會科技進步二等獎等獎項。武教授現為IEEE語音與語言處理技術委員會委員，語音領域權威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor，IEEE Signal Processing Letters的Associate Editor，IEEE Spoken Language Technology Workshop 2024的大會主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權威學術會議做特邀報告，也在OpenMMLab、語音之家、智源社區等平臺進行技術分享，團隊成員受邀至多所高校進行學術交流，持續推動開源社區建設，促進技術創新與知識共享。

培養未來的AI領軍人才：

成為引領者而不是追隨者、勇于追求卓越

作為一名杰出的學術導師，武執政教授不僅在科研領域取得了卓越成就，還通過高水準的科研指導，為國際AI領域培養人才。武教授給團隊設立了價值觀：“Be a leader, not a follower（成為引領者而不是追隨者）”，“Be bold and fight for excellence（勇于追求卓越）”，激勵同學們做出有影響力的研究。武教授的學生在全球競爭中屢獲殊榮，多人進入國際頂級實驗室和企業實習與工作，在學術研究、行業實踐和國際化交流中表現出色，成為推動人工智能發展的新生力量。

武教授注重為學生提供廣闊的國際交流平臺，通過合作和學術訪問幫助學生擴展視野，提升科研能力，學生們受邀參加國際頂會ICML、ICASSP、INTERSPEECH等，發表高水平論文，并與來自全球的頂尖學者進行學術探討。

武教授說：“香港中文大學（深圳）之所以能夠培養出在國際舞臺發光的新生力量，主要是學校的老師都是在科研一線親自指導；同學們可以直接參與到與一線前沿企業的合作項目中，起點高；同時，同學們有機會與國際上的實驗室和研究者進行交流；此外，港中大（深圳）的課程是沒有規定必須按照固定的教材上課，這樣老師可以把最新的研究成果和前沿信息帶到課堂中來。”

走進中小學，普及人工智能

武教授除了教學、科研、產學研轉化，他也抽出時間面向中小學生科普。武教授指出：“人工智能非常貼近我們的生活，應該成為我們生活中的一部分。所以我們在做讓中小學生們感受到的人工智能技術時，也應該讓他們能夠聽懂，能夠啟發他們更多的‘稀奇古怪’的想法。”

武教授也受聘為彩田學校科學副校長，在彩田學校、中山紀念中學、天津振華中學等知名學校進行了科普講座，也在圖書城等地方面向更廣泛的群體科普人工智能。武教授也正在策劃一套面向中小學生的繪本讀物，讓我們一起期待吧。

武教授受聘為彩田學校科學副校長

武教授團隊參展中山紀念中學科技節，讓學生體驗語音克隆大模型

青年教授簡介

武執政博士現任香港中文大學（深圳）副教授、博導，港中大（深圳）-趣丸科技聯合實驗室主任。入選國家級青年人才，連續多次入選斯坦福大學“全球前2％頂尖科學家”、愛思唯爾“中國高被引學者”榜單。

他于南洋理工大學獲得博士學位，并在Meta（原Facebook）、蘋果、微軟亞洲研究院等機構從事學術研究和技術領導工作，參與創立多家公司（吸引超過6億人民幣投資）。武博士帶領開發了開源系統Merlin、Amphion及開源數據庫Emilia，被超過700多家單位（包括OpenAI、英偉達、斯坦福大學、卡內基梅隆大學等）采用。他發起并組織了第一屆聲紋識別欺騙檢測國際評測、第一屆語音轉換國際評測，組織了2019年語音合成國際評測（Blizzard Challenge 2019）。多次獲得最佳（學生）論文獎，廣東省人工智能產業協會科技進步二等獎等獎項。武博士現為IEEE語音與語言處理技術委員會委員，語音領域權威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor，IEEE Signal Processing Letters的Associate Editor，IEEE Spoken Language Technology Workshop 2024的大會主席。

他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權威學術會議做特邀報告。

百家乐平注常赢玩法-百家乐官网技巧-百家乐官网开户指定代理网址_澳门百家乐博_全讯网官方 (中国)·官方网站

關于我們

新聞資訊

教學

書院

科研

招生

就業

校園生活

關于我們

新聞資訊

教學

書院

科研

招生

就業

校園生活

AI新星系列報道之五｜武執政：打造有情商的語音大模型

相關推薦

AI新星系列報道之十六 | 吳均峰：為水下機器人裝上感知的“AI之眼”