在晚高峰的車流中,一輛自動駕駛車輛突然減速——前方,一輛高速行駛的車輛突然強行并線。在這千鈞一發之際,車載系統迅速識別風險并預測可能路徑,最終在安全距離實現了優雅避讓,穩妥化解潛在碰撞。這一反應能力,得益于計算機視覺和人工智能的迅猛發展,特別是讓機器“看懂三維世界”的技術進步。具備三維空間理解能力,是通往通用人工智能的關鍵一步,而視覺無疑是人類與智能系統之間最自然、最高效的交互橋梁。

在這個領域中,香港中文大學(深圳)蔣理教授是一顆冉冉升起的新星。她長期致力于三維場景感知、表征學習、自動駕駛和世界模型等方向的研究,目標是賦予機器理解、建模并與真實三維世界互動的能力。

7月3日,在聯合國工業發展組織投資和技術促進辦公室(中國·北京)與東壁科技數據有限責任公司聯合發布的聚焦全球人工智能科研人才榜單中,蔣理教授憑借在人工智能領域的卓越貢獻和突出成就,成功入選“全球人工智能女性人才榜TOP50”榜單。這位青年科學家正在用三維視覺重塑智能系統的“世界觀”,為人工智能邁入復雜真實世界奠定堅實基礎。

?

讓實驗室技術駛入現實車道:直面真實世界的復雜性

真正的創新必須直面現實世界的復雜性,蔣理教授始終堅持“從問題中來,到應用中去”,以解決真實世界中的技術難題為導向,推動前沿算法向產業落地邁進。在自動駕駛領域,蔣教授團隊提出的三維場景感知模型和運動預測模型已經具備較強的工程可用性,可直接應用于自動駕駛系統中,以支持動態環境中的物體識別與行為預測。

面對動態交通場景中瞬息萬變的運動預測難題,蔣理教授團隊提出了具有代表性的 Motion Transformer(MTR)系列模型,創新性地將Transformer架構與物體運動規律深度融合,開啟了自動駕駛預測模型的系統性演進。

這項歷時三年的技術攻堅,演繹著自動駕駛運動預測核心算法“單目標預測-多目標預測-多模態預測”的進化論:初代MTR突破性地將交通參與者的多模態運動意向建模為可學習的查詢形式,使軌跡預測更好地覆蓋物體未來可能的運動意向;在此之上迭代的第二代模型MTR++實現了多目標軌跡同時預測,更貼合真實世界的復雜路況;最新MTR v3繼續向前邁進一步,將原始傳感器數據納入預測框架,攻克傳統高精地圖無法實時反映道路變化的行業痛點。

運動軌跡模擬

Waymo自動駕駛挑戰賽由谷歌旗下自動駕駛公司Waymo主辦,因其貼近實際交通場景的高質量數據與嚴格評測標準,在學術界和工業界均具有很高的認可度。在這項國際自動駕駛專業賽事中,蔣理教授團隊憑借MTR系列模型問鼎2022-2024年運動預測賽道“三連冠”,體現了其方法在應對真實世界復雜交通動態方面的有效性,也充分證明了其研究成果從實驗室走向現實車道的潛力。

蔣理教授連續三年獲Waymo自動駕駛挑戰賽運動預測賽道冠軍

?

雙螺旋創新:高校與企業的協同共振

傳統的自動駕駛系統通過多個子模塊級聯處理駕駛任務,雖然在大規模標注數據訓練下表現出色,但也面臨系統復雜、計算效率低以及模塊間誤差累積等問題。針對這一“模塊化困境”,蔣理教授團隊與滴滴自動駕駛展開深度合作,共同探索世界模型驅動的端到端自動駕駛新范式。端到端自動駕駛系統通過從傳感器數據直接生成車輛控制行為,實現了全流程可微分的決策過程,具備在大規模數據驅動下優化整體性能的潛力。同時,世界模型在這一系統中通過自監督方式預測環境未來狀態,使系統在未標注的千萬公里路測數據中自主學習物理規律與駕駛常識,這種“時空推演能力”可顯著提高自動駕駛系統的穩定性和泛化能力。目前,這項研究現已進入初步驗證階段,并獲得了2024年度CCF-滴滴蓋亞學者科研基金資助。

蔣理教授(右二)獲2024年度CCF-滴滴蓋亞學者科研基金資助

這項技術探索的背后,是高校與企業的雙螺旋協同的創新生態。蔣理教授指出,高校中一批批思維活躍、勇于挑戰難題的青年學者在前沿探索中開拓理論邊界,成為推動學科進步的重要源頭。而在當前大數據驅動的新階段,自動駕駛等方向對數據規模和算力資源提出了更高的要求,企業的真實場景數據與算力平臺便能為前沿技術的探索搭建驗證階梯,且企業更擅長將研究成果工程化、系統化并推向實際應用。二者的深度協同,是助推技術從“實驗室”走向“真實場景”的關鍵路徑。

蔣理教授在2024年度中國計算機大會作報告

?

重塑機器的世界觀:看懂世界、預測未來、自主行動

當前,計算機視覺領域正面臨從數字世界邁入物理世界的“空間認知挑戰”。在圖像理解與內容生成等任務中,視覺—語言多模態大模型已展現出優秀的智能交互特性,但蔣理教授指出,這類“智能”更多地發生在數字空間中,它們缺乏對三維空間結構與物理規律的本質理解,因此在實際環境中的感知與決策能力仍有很大的提升空間。

為此,蔣理教授團隊將三維世界模型研究作為破局之鑰。通過世界模型所具備的動態預測能力,讓機器不僅能感知當下的環境,更能推演出未來世界狀態的變化,賦予智能體在物理世界中的決策智慧。她指出,“未來的人工智能不應只是處理信息的工具,而應成為能夠與世界交互的智能體。”

在可預見的未來里,自動駕駛汽車將能夠安全應對已通過基于世界模型的仿真數據平臺預演過上百萬次的極端場景,安全抵達每一個目的地。蔣理教授對未來圖景的構想也遠不止于自動駕駛領域:當機器的視野從二維像素拓展到三維空間,工業生產線上具身智能體可擁有自主協調復雜工序的能力,手術機器人可實現毫米級精準操作……這種智能與物理世界的融合,將徹底革新人類與技術的協作范式。

在這場空間認知革命中,蔣理教授團隊的實踐正在從底層架構重塑機器的世界觀。這不僅指明了自動駕駛的前路,更在通用人工智能的基石上刻下坐標。正如她所言:“我希望能夠構建具備空間感知、推理與交互能力的視覺系統,讓機器真正實現看懂世界、預測未來、自主行動。”

?

青年教授簡介

蔣理

港中大(深圳)數據科學學院助理教授

蔣理,香港中文大學(深圳)數據科學學院助理教授,校長青年學者。蔣教授于2021年獲得香港中文大學博士學位,其后在馬克斯·普朗克研究所擔任博士后研究員。蔣教授的研究聚焦于計算機視覺與人工智能,具體方向包括三維場景理解、自動駕駛、空間智能、世界模型、表征學習以及多模態學習等。她的研究成果發表在CVPR、ICCV、ECCV、NeurIPS、TPAMI和IJCV等頂級會議和期刊中,并多次獲選口頭報告與亮點論文,谷歌學術引用量超過12,000次。其關于自動駕駛運動預測的研究在2022-2024年的CVPR Waymo Open Dataset Motion Prediction Challenge中連續三屆獲得第一名。蔣教授入選2024年由斯坦福大學與愛思唯爾聯合發布的全球前2%頂尖科學家年度影響力榜單,并獲得國家級青年人才項目“海外優青”的資助。

?

點擊了解更多:

祝賀!深圳三位女性登上“全球人工智能女性人才榜TOP50”