AI新星系列報道之九 | 劉桂良:期待具身智能機器人的“頓悟”時刻
20科技研發(fā)的人形機器人登上舞臺,以其精準的動作和穩(wěn)定的表現(xiàn)深入人心。不僅展示出中國智造的強大實力,也讓大眾意識到,人工智能正以具身智能機器人為載體,逐步走進人類的生活。
具身智能,簡而言之,是將人工智能系統(tǒng)與機器人等物理實體相結(jié)合,使其能夠感知環(huán)境、進行決策并執(zhí)行動作的一門技術(shù)。機器人形態(tài)多樣,包括雙足、四足、輪式、機械狗等,其中,人形機器人對人類社會適配性最佳,被認為是最能夠幫助人類的機器人。
作為具身智能領(lǐng)域的學者,香港中文大學(深圳)劉桂良教授正帶領(lǐng)團隊主攻人形機器人發(fā)展的技術(shù)難題。他從具身機器人數(shù)字引擎入手,積極探索機器人的安全控制決策,推動具身智能從展示走向通用與泛化。

劉桂良教授
具身機器人數(shù)字引擎:為機器人提供無限訓練場景
要讓具身智能機器人真正變得“聰明”,它需要一個強大的“大腦”——這個“大腦”不是生物意義上的器官,而是一種能夠處理多種信息的多模態(tài)大模型。這種模型可以整合視覺、聽覺、觸覺等感官數(shù)據(jù),以及語言和指令等抽象信息,幫助機器人更好地理解周圍環(huán)境并做出決策。
然而,訓練這樣一個“大腦”并不容易。雖然AI在文本、圖像和視頻生成方面已經(jīng)取得了很大進展,但在機器人控制決策方面仍然面臨巨大挑戰(zhàn)。核心問題在于,機器人操作的數(shù)據(jù)與文本、圖像等數(shù)據(jù)完全不同。機器人需要在真實的三維空間中行動,而這些數(shù)據(jù)的采集成本高、效率低,且不同來源的數(shù)據(jù)格式和采集方式不統(tǒng)一,導致數(shù)據(jù)難以整合用于訓練。這種碎片化的數(shù)據(jù)收集方式使得數(shù)據(jù)質(zhì)量參差不齊,無法覆蓋多樣化的操作場景,嚴重限制了模型的訓練效果和泛化能力。因此,如何高效、低成本地獲取高質(zhì)量的操作數(shù)據(jù),成為了開發(fā)可應(yīng)用于實際場景的“視覺-語言-動作”(VLA)通用機器人操作大模型的關(guān)鍵瓶頸。
針對這些問題,劉桂良教授與團隊提出了基于生成式仿真的機器人數(shù)字引擎。該引擎依托強大的生成模型算法,能夠?qū)⒄鎸嵤澜绲臄?shù)據(jù)映射到虛擬環(huán)境中,在仿真空間內(nèi)生成多樣化的場景。通過這種方式,引擎能夠規(guī)模化地生成人形機器人操作技能數(shù)據(jù),并最終將這些數(shù)據(jù)無縫部署到真實機器人系統(tǒng)中,為機器人控制決策提供高效、低成本的數(shù)據(jù)支持。這一技術(shù)突破不僅大幅降低了數(shù)據(jù)采集的成本和復(fù)雜度,還為機器人操作大模型的訓練和泛化能力提供了堅實的數(shù)據(jù)基礎(chǔ)。

具身智能機器人數(shù)字引擎實現(xiàn)無縫部署(zero-shot deployment)到真實機器人
“當你給出一段語言描述,它便能生成相應(yīng)的場景。就如同生成一個五彩斑斕的視頻,但內(nèi)容不僅是畫面,而是可以互動的3D場景。” 劉教授解釋道。
目前,這一研究項目得到了深圳市重大專項和大學聯(lián)合基金的支持。此前,劉教授團隊與跨維智能公司合作,共同開發(fā)出實現(xiàn)通用機器人智能AU和合成數(shù)據(jù)引擎DexVerseTM,以及背后提供支持的一些列具身智能關(guān)鍵技術(shù),包括3D生成式AI、可微分仿真和渲染、3D基礎(chǔ)模型的架構(gòu)設(shè)計和學習等。
具身機器人數(shù)字引擎
擺盤任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 倒水任務(wù) 數(shù)字引擎生成的雙臂機器人操作技能 擺盤任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 倒水任務(wù) 經(jīng)過引擎數(shù)據(jù)訓練的真實機器人動作決策大模型(RDT大模型) 物體抓取任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 開箱子任務(wù) 數(shù)字引擎生成的單臂機器人操作技能 物體抓取任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?開箱子任務(wù) 經(jīng)過引擎數(shù)據(jù)訓練的真實機器人動作決策大模型(DT大模型) |
人形機器人:集多角色于一體的未來智能助手
在具身機器人數(shù)字引擎搭建的技術(shù)基礎(chǔ)之上,劉教授正探索人形機器人的技術(shù)發(fā)展與應(yīng)用。人形機器人因其類似人類的物理結(jié)構(gòu),能夠無縫融入人類工作環(huán)境,并承擔多種任務(wù)。這一特性使它們成為人工智能在現(xiàn)實世界中的重要載體。近年來,隨著硬件性能的提升和控制算法的不斷優(yōu)化,人形機器人在工廠、家庭和辦公室等各類場景中的應(yīng)用日益廣泛,并發(fā)揮著越來越重要的作用。然而,由于人形機器人通常具備復(fù)雜的上半身和下半身結(jié)構(gòu),涉及眾多自由度,實現(xiàn)穩(wěn)定、高效的控制仍然面臨巨大挑戰(zhàn)。開發(fā)先進的控制算法,使其能夠適應(yīng)多變的環(huán)境,是當前研究的關(guān)鍵問題。

技術(shù)路徑流程圖
目前,劉教授團隊的研究重點在于機器人的安全控制決策,即魯棒優(yōu)化的人形機器人控制模型。
“我們設(shè)計了一套干擾排除算法,使機器人在外部干擾下仍能穩(wěn)定運行。這種穩(wěn)定性體現(xiàn)在,機器人可以在各種地形行走,抵抗各種外部干擾,還能模仿人類的動作。此外,我們還實現(xiàn)了任務(wù)執(zhí)行模式的自動切換。機器人在干擾較小時優(yōu)先執(zhí)行任務(wù),干擾較大時則優(yōu)先抵抗干擾。”
?
劉教授團隊設(shè)計的干擾排除算法,使機器人在外部干擾下仍能穩(wěn)定運行
?
業(yè)內(nèi)普遍預(yù)測人形機器人將在未來五年內(nèi)大規(guī)模進入市場。劉教授表示認同。他認為,盡管初期的人形機器人產(chǎn)品可以完成的工作較為有限,但隨著技術(shù)的迭代,它們會擁有越來越強大的功能。
今年二月,國際電工委員會(IEC)正式發(fā)布由我國牽頭制定的養(yǎng)老機器人國際標準。這標志著養(yǎng)老機器人產(chǎn)業(yè)已進入規(guī)范化發(fā)展階段。
對此,劉教授從成本方面分析了人形機器人引領(lǐng)智慧養(yǎng)老發(fā)展的可行性。
“對于老齡化社會來說,人形機器人可以極大減輕社會的養(yǎng)老壓力。可以預(yù)測的是,在五年內(nèi),強大的中國智造可以將人形機器人的成本控制在10萬元至20萬元,有望讓具身智能在中高端養(yǎng)老院內(nèi)率先普及。”
?
展望未來:AI定義本體,機器人實現(xiàn)自我進化
對于具身智能的下一步發(fā)展方向,劉教授提出了“AI定義本體”的概念。傳統(tǒng)的具身智能研究通常將機器人視為智能體,并圍繞其感知、決策和控制展開探索。然而,這種研究范式難以保障機器人對環(huán)境的持續(xù)適應(yīng)能力,也無法像生物進化那樣推動機器人自身的進化。
為此,在AI定義本體的研究框架下,劉教授提出一種新方法:利用虛擬仿真環(huán)境中的強化學習和大模型技術(shù),在更新機器人控制策略的同時,實現(xiàn)其自動化設(shè)計與形態(tài)優(yōu)化。通過這種方式,機器人能夠在復(fù)雜環(huán)境中自主適應(yīng)并完成任務(wù)。優(yōu)化后的形態(tài)可轉(zhuǎn)化為現(xiàn)實,進行生產(chǎn)與測試,推動具身機器人的自然選擇與進化。
劉教授進一步解釋道:“未來的機器人制造廠可以根據(jù)需求自動組裝出適合特定任務(wù)的機器人形態(tài)。比如,你需要一個會開車的機器人,工廠就能定制出適合開車的形態(tài)。通過仿真環(huán)境中的不斷迭代,機器人將逐步優(yōu)化其形態(tài)與控制能力,最終走出工廠即可投入工作。”
DeepSeek團隊提到,他們的全新推理模型曾出現(xiàn)連內(nèi)部都未預(yù)料到的“Aha Moment”(頓悟時刻)。這是一個從量變到質(zhì)變的過程,反映了AI技術(shù)階躍性突變的特點——進步往往在某一刻突然發(fā)生。
從生成式具身智能引擎到人形機器人,再到AI定義本體,劉桂良教授帶領(lǐng)團隊在具身智能領(lǐng)域不斷探索與突破。他期待,隨著技術(shù)的持續(xù)迭代與更新,他與團隊也將迎來屬于自己的“頓悟時刻”。
?
青年教授簡介

劉桂良
港中大(深圳)數(shù)據(jù)科學學院助理教授
劉桂良博士現(xiàn)任香港中文大學(深圳)數(shù)據(jù)科學學院助理教授。他本科畢業(yè)于華南理工大學計算機科學與工程學院,隨后在加拿大西蒙弗雷澤大學(Simon Fraser University)計算機科學系獲得博士學位,并在加拿大滑鐵盧大學(University of Waterloo)及向量研究院(Vector Institute)完成博士后研究。劉桂良教授的研究主要聚焦于強化學習與具身智能決策。其中,在安全強化學習方面,他基于逆約束推斷方法,致力于提升強化學習系統(tǒng)的安全性。此外,他還專注于具身機器人操作技能的研究,開發(fā)高效的數(shù)據(jù)引擎,以提升機器人在復(fù)雜任務(wù)中的操作能力,并設(shè)計穩(wěn)健的控制算法,確保人形機器人在復(fù)雜環(huán)境中的安全性和穩(wěn)定性。與包括華為、百度以及跨維智能在內(nèi)的企業(yè)和機構(gòu)展開合作。自2022年以來,劉桂良教授在包括NeurIPS、ICML、ICLR在內(nèi)的國際機器學習頂級學術(shù)會議和期刊上發(fā)表論文30余篇,并入選工信部“啟明計劃”、深圳市“鵬城優(yōu)才”及香港中文大學(深圳)“校長青年學者”計劃。此外,他主持廣東省和深圳市面上項目,并擔任深圳市重大專項子課題負責人。他的研究工作受到廣泛認可,曾獲得“加拿大Vector研究基金及Mitacs研究獎”的資助。

劉桂良教授團隊合影