數(shù)據(jù)科學(xué)學(xué)院宋彥教授團(tuán)隊(duì)在自然語言處理頂級(jí)會(huì)議ACL發(fā)表9篇論文

香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院宋彥教授團(tuán)隊(duì)9篇論文被自然語言處理旗艦會(huì)議ACL-2021接收,論文涉及多項(xiàng)自然語言理解和生成任務(wù),以及信息抽取相關(guān)任務(wù)。ACL是自然語言處理領(lǐng)域水平最高、最權(quán)威的國際會(huì)議,被《中國計(jì)算機(jī)學(xué)會(huì)推薦國際學(xué)術(shù)會(huì)議和期刊目錄(2019)》評(píng)為人工智能A類學(xué)術(shù)會(huì)議。
ACL會(huì)議介紹
ACL(The Association for Computational Linguistics)是計(jì)算語言學(xué)年會(huì),由計(jì)算語言學(xué)學(xué)會(huì)(Association of Computational Linguistics)舉辦,每年有眾多高水平學(xué)者出席。ACL在審稿規(guī)范、質(zhì)量方面是如今AI會(huì)議的翹楚之一,能夠通過ACL的評(píng)審的工作,證明研究結(jié)果在實(shí)驗(yàn)嚴(yán)謹(jǐn)性、思路創(chuàng)新性上有著極高的保證。ACL-2021為第59屆,將于8月1至7日在線上召開(原定泰國曼谷)。
9篇論文的具體成果介紹
自然語言理解方向
01
Relation Extraction with Type-aware Map Memories of Word Dependencies
關(guān)系抽取(relation extraction,RE)是信息抽取和檢索中的一項(xiàng)重要任務(wù),旨在從運(yùn)行文本中抽取給定實(shí)體之間的關(guān)系。為了在此任務(wù)中取得良好的性能,先前的研究表明需要對(duì)上下文信息進(jìn)行良好的建模,其中輸入句子的依存句法樹可以成為不同類型上下文信息之間的有益來源。然而,這些研究大多集中在單詞之間的依存關(guān)系上,而很少關(guān)注依存關(guān)系類型。此外,他們通常在建模中對(duì)不同的依存關(guān)系同等對(duì)待,因此會(huì)受到自動(dòng)生成的依存句法樹中的噪聲的影響。
本文提出了一種關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)方法,使用基于類型的映射記憶神經(jīng)網(wǎng)絡(luò) (type-aware map memories, TaMM)對(duì)輸入句子的依存句法樹中的依存句法類型進(jìn)行編碼。具體地,對(duì)于實(shí)體中的每個(gè)詞,TaMM 將所有與該詞通過依存句法關(guān)聯(lián)的詞以及它們之間的依存關(guān)系類型映射到記憶槽(memory slots),然后根據(jù)不同依存句法關(guān)系對(duì)關(guān)系抽取任務(wù)的貢獻(xiàn)為它們分配不同的權(quán)重。與前人相比,我們的方法不僅利用了單詞之間的依存關(guān)系和類型,而且還可以通過權(quán)重,區(qū)分依存句法知識(shí)中潛在的噪音。
該研究在兩個(gè)英語基準(zhǔn)數(shù)據(jù)集(ACE2005以及SemEval)上測(cè)試了模型的性能。實(shí)驗(yàn)結(jié)果表明了本文提出的方法的有效性,在兩個(gè)數(shù)據(jù)集上都達(dá)到了目前最優(yōu)的性能。
圖1:TaMM 的模型結(jié)構(gòu)
表1:模型在AEC2005和SemEval上的性能
?
02
Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks
本文同樣針對(duì)關(guān)系抽取任務(wù),提出一種用于使用注意力圖卷積網(wǎng)絡(luò)(attentive graph convolutional networks, A-GCN)的方法編碼依存句法關(guān)系。具體地,該方法對(duì)自動(dòng)獲取的依存句法樹中的不同的上下文詞應(yīng)用A-GCN,以區(qū)分不同依存關(guān)系的重要性。考慮到不同詞之間的依存關(guān)系類型也包含重要的上下文信息,可以幫助關(guān)系抽取任務(wù),該研究還在 A-GCN 建模中包含了依存關(guān)系類型的信息,并在兩個(gè)英語基準(zhǔn)數(shù)據(jù)集(ACE2005和SemEval)上的實(shí)驗(yàn)結(jié)果表明了我們的 A-GCN 方法的有效性,它優(yōu)于以前的研究并在兩個(gè)數(shù)據(jù)集上都達(dá)到了目前最好的性能。
圖1:A-GCN 的模型架構(gòu)
表1:我們的模型(A-GCN)與前人研究的比較
?
基礎(chǔ)和底層的任務(wù)(包括分詞,預(yù)訓(xùn)練文本表征模型等)方向
03
Federated Chinese Word Segmentation with Global Character Associations
中文分詞(Chinese word segmentation, CWS)是中文信息處理的一項(xiàng)基本任務(wù),其中,未登錄詞(out-of-vocabulary word, OOV)是該任務(wù)的一個(gè)難點(diǎn)。當(dāng)模型在不同來源的數(shù)據(jù)上進(jìn)行測(cè)試時(shí),未登錄詞的問題則更為突出。雖然使用更多的訓(xùn)練數(shù)據(jù)是一種可能的解決方案,但在實(shí)際應(yīng)用中,這些數(shù)據(jù)往往存儲(chǔ)在不同的位置(節(jié)點(diǎn)),并且由于隱私或法律問題(例如來自不同醫(yī)院的臨床報(bào)告)而彼此孤立。
為了解決這個(gè)問題并從額外的數(shù)據(jù)中受益,該研究提出了一種用于中文分詞的神經(jīng)網(wǎng)絡(luò)模型,采用聯(lián)邦學(xué)習(xí) (federated learning,F(xiàn)L) 解決數(shù)據(jù)孤立的問題。該研究提出了一種全局字符關(guān)聯(lián)機(jī)制(Global Character Associations,GCA)的方法,增強(qiáng)模型從不同數(shù)據(jù)源中學(xué)習(xí)的性能,并在具有五個(gè)孤立節(jié)點(diǎn)的模擬環(huán)境上測(cè)試了該模型。實(shí)驗(yàn)結(jié)果表明了該方法的有效性,優(yōu)于不同的基礎(chǔ)模型,其中包括一些設(shè)計(jì)良好的聯(lián)邦學(xué)習(xí)框架。
圖1:模型的結(jié)構(gòu)
表1:模型在5個(gè)孤立節(jié)點(diǎn)的模擬實(shí)驗(yàn)中的性能
?
04
Improving Arabic Diacritization with Regularized Decoding and Adversarial Training
在不同的語言上往往存在不同的基礎(chǔ)自然語言理解任務(wù),就如同中文文本的詞與詞之間沒有顯式的空格,現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(Modern Standard Arabic,MSA)的文本一般會(huì)省略一些短的元音符號(hào)。這些被省略的元音符號(hào)會(huì)使得一些阿拉伯語的詞變得有歧義(有經(jīng)驗(yàn)的阿拉伯語母語者往往可以根據(jù)語境還原這些被省略的元音符號(hào))。因此,與中文文本往往需要分詞一樣,還原阿拉伯語的文本中這些省略的變音符號(hào)(Arabic Diacritization),是阿拉伯語處理的一項(xiàng)基本任務(wù),可以幫助模型理解詞語在當(dāng)前語境下的意義。針對(duì)阿拉伯語的該研究同時(shí)可以推動(dòng)我們?cè)谄渌Z言上進(jìn)行類似的工作。
與中文分詞類似,該任務(wù)可以通過序列標(biāo)注的形式建模。先前的研究表明,自動(dòng)生成的知識(shí)(例如詞性標(biāo)簽等)可以有效幫助這項(xiàng)任務(wù)。 然而,這些研究將往往把自動(dòng)生成的知識(shí)實(shí)例直接與關(guān)聯(lián)的詞相加,而未能識(shí)別這些知識(shí)實(shí)例是否是真正有用的知識(shí)。當(dāng)這些知識(shí)中存在雜音時(shí),這些雜音會(huì)誤導(dǎo)模型,從而導(dǎo)致錯(cuò)誤的預(yù)測(cè)。本文提出使用正則化解碼(Regularized Decoding,RD)和對(duì)抗訓(xùn)練(Adversarial Training,AT)恰當(dāng)?shù)貜倪@些含有雜音的知識(shí)中學(xué)習(xí)以幫助模型提升性能。其中,正則化解碼用于學(xué)習(xí)自動(dòng)生成的知識(shí),對(duì)抗訓(xùn)練則用于確保模型能夠識(shí)別自動(dòng)知識(shí)中的雜音,從而學(xué)習(xí)自動(dòng)知識(shí)中對(duì)任務(wù)有用的部分。在兩個(gè)基準(zhǔn)數(shù)據(jù)集(ATB和Tashkeela)上的實(shí)驗(yàn)結(jié)果表明,即使自動(dòng)生成的知識(shí)含有很多的雜音,該研究仍然可以學(xué)習(xí)足夠的信息,并用其幫助提升模型的性能,最終在兩個(gè)數(shù)據(jù)集上取得了目前最優(yōu)的性能。
圖1:本文提出的模型的結(jié)構(gòu)圖
表1:本文提出的模型與前人結(jié)果的對(duì)比
?
05
Taming Pre-trained Language Models with N-gram Representations for Low-Resource Domain Adaptation
上述的各類自然語言理解模型,大都依賴高性能的大規(guī)模預(yù)訓(xùn)練語言模型(例如BERT等)。然而,在傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)的范式下,預(yù)訓(xùn)練模型不能很好的應(yīng)對(duì)出現(xiàn)領(lǐng)域遷移的下游數(shù)據(jù)集。一種可行的方法是在新領(lǐng)域的大規(guī)模無監(jiān)督數(shù)據(jù)集上進(jìn)行重新預(yù)訓(xùn)練,但是這種方法需要大量計(jì)算資源。本研究經(jīng)過大量的實(shí)驗(yàn)發(fā)現(xiàn),領(lǐng)域遷移導(dǎo)致性能下降的一個(gè)主要原因是預(yù)訓(xùn)練模型不能對(duì)領(lǐng)域特有的新詞、新n元組產(chǎn)生的可靠的表征。
因此,本研究提出了一種低資源情況下,利用n元組信息,對(duì)預(yù)訓(xùn)練語言模型進(jìn)行領(lǐng)域遷移的模型: T-DNA。與前人的工作相比,T-DNA可以有效的學(xué)習(xí)和利用領(lǐng)域特有的n元組信息,來幫助模型更好地對(duì)文本進(jìn)行表征,從而提高了英文預(yù)訓(xùn)練模型RoBERTa在4個(gè)領(lǐng)域 (biomedical sciences, computer science, news, reviews) 共8個(gè)下游分類任務(wù)上的性能。
圖1 T-DNA 模型圖

表 1 T-DNA與現(xiàn)有模型在八個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比
?
自然語言生成方向
06
TILGAN: Transformer-based Implicit Latent GAN for Diverse and Coherent Text Generation
近年來,基于Transformer的自回歸模型為文本生成任務(wù)上帶來了重要提升。然而,自回歸模型因?yàn)橛?xùn)練時(shí)依賴真實(shí)文本序列,預(yù)測(cè)時(shí)依賴生成文本序列,所以存在曝光誤差 (exposure bias) 的問題。前人的研究證明,對(duì)抗生成網(wǎng)絡(luò)(GANs) 可以有效的解決這類問題,然而已有的研究多數(shù)是關(guān)注在離散輸出空間,具有不穩(wěn)定和缺乏多樣性的問題。因此,本研究提出了一種基于Transformer的對(duì)抗生成網(wǎng)絡(luò)模型,TILGAN。它有機(jī)地將一個(gè)Transformer 自編碼器和對(duì)抗生成網(wǎng)絡(luò)在隱向量空間結(jié)合到一起。為了提升局部和全局的連貫性,我們顯式地引入了多尺度的辨別器來捕捉不同尺度的隱向量信息。進(jìn)一步地,為了讓解碼器在訓(xùn)練時(shí)見到生成器的輸出,在訓(xùn)練過程中,我們加入Kullback-Leibler divergence來對(duì)解碼器和生成器的輸出進(jìn)行適配,從而實(shí)現(xiàn)更加有效地訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,TILGAN在無條件生成和有條件生成兩個(gè)任務(wù)共三個(gè)數(shù)據(jù)集上取得了顯著提升。自動(dòng)評(píng)價(jià)指標(biāo)和人工評(píng)價(jià)都表明TILGAN可以生成更加多樣和連貫的文本。

圖1 TILGAN 模型圖。藍(lán)色和橘黃色分別代表全局辨別器和局部辨別器。綠色代表解碼器增強(qiáng)路徑

表1 TILGAN與現(xiàn)有模型在無條件生成任務(wù)上的實(shí)驗(yàn)結(jié)果對(duì)比

表2 TILGAN 與現(xiàn)有模型在有條件生成任務(wù)上的實(shí)驗(yàn)結(jié)果對(duì)比
?
07
Cross-modal Memory Networks for Radiology Report Generation
以通用領(lǐng)域的文本生成模型為基礎(chǔ),該研究把自然語言生成方法應(yīng)用于醫(yī)療領(lǐng)域,尤其是醫(yī)學(xué)影像報(bào)告的自動(dòng)生成。醫(yī)學(xué)影像在醫(yī)學(xué)診斷的臨床實(shí)踐中發(fā)揮著重要作用,其文本報(bào)告對(duì)于理解患者病情和促進(jìn)后續(xù)治療至關(guān)重要。自動(dòng)影像生成報(bào)告的模型和方法,有利于減輕醫(yī)生的負(fù)擔(dān),可以促進(jìn)臨床自動(dòng)化,已經(jīng)在人工智能應(yīng)用于醫(yī)學(xué)領(lǐng)域引起了廣泛關(guān)注。以前的研究主要遵循“編碼-解碼”范式來生成影像報(bào)告,并且他們專注的方向大都集中于文本生成方面,很少有研究考慮跨模態(tài)(即跨圖像和文本)映射的重要性,并利用此類映射來促進(jìn)放射學(xué)報(bào)告的生成。
本文提出了一種跨模態(tài)記憶網(wǎng)絡(luò) (Cross-modal Memory Networks ,CMN) 增強(qiáng)醫(yī)學(xué)影像報(bào)告生成方法。其中,我們使用共享記憶組件對(duì)其圖像和文本之間的表征,以促進(jìn)跨模態(tài)的交互和生成。實(shí)驗(yàn)結(jié)果說明了該模型的有效性,其中在兩個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集(即IU X-Ray 和 MIMIC-CXR)上實(shí)現(xiàn)了最先進(jìn)的性能。進(jìn)一步的分析還表明,該模型能夠更好地對(duì)齊來自圖像和文本的信息,從而幫助生成更準(zhǔn)確的臨床指標(biāo)報(bào)告。
圖1:模型結(jié)構(gòu)
表1:CMN與現(xiàn)有方法在兩個(gè)數(shù)據(jù)集上性能的比較
?
08
Word Graph Guided Summarization for Radiology Findings
進(jìn)一步地,針對(duì)醫(yī)學(xué)影像報(bào)告,我們關(guān)注對(duì)報(bào)告中重要部分文本的自動(dòng)摘要的生成。每份醫(yī)學(xué)影像報(bào)告一般由兩部分組成,其中,“發(fā)現(xiàn)”(findings)部分包含了詳細(xì)的醫(yī)學(xué)影像的描述;“印象”(impression)部分是對(duì)“發(fā)現(xiàn)”部分的摘要,總結(jié)了“發(fā)現(xiàn)”中最重要的內(nèi)容,具有十分重要的研究價(jià)值。因此,該研究的重點(diǎn)是自動(dòng)“印象”摘要生成。現(xiàn)有的研究主要集中在從“發(fā)現(xiàn)”中提取重要的詞的信息,并將其引入到通用的文本摘要框架中,從而指導(dǎo)模型生成“印象”。然而,對(duì)于這項(xiàng)任務(wù),模型不僅需要利用“發(fā)現(xiàn)”中的重要詞,還需要準(zhǔn)確地獲取它們之間的關(guān)系,從而生成高質(zhì)量的“印象”。
本文提出了一種自動(dòng)“印象”生成的新方法:從“發(fā)現(xiàn)”中抽取重要的關(guān)鍵詞,以及它們之間的關(guān)系,從而構(gòu)成詞圖;然后提出一個(gè)詞圖引導(dǎo)的摘要模型(Word Graph guided Summarization Model,WGSum) 來生成“印象”。該研究在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(即OpenI 和 MIMIC-CXR)上測(cè)試了模型的性能。實(shí)驗(yàn)結(jié)果和進(jìn)一步的分析表明了該方法的有效性,在兩個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了目前最好的結(jié)果。
圖1:本文提出的模型的結(jié)構(gòu)
表1:我們的模型與前人模型性能的比較
?
信息抽取領(lǐng)域
09
RevCore: Review-augmented Conversational Recommendation
與文本的生成相似,對(duì)話的推薦與生成同樣是自然語言生成領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。現(xiàn)有的對(duì)話推薦(conversational recommendation,CR)系統(tǒng)在處理短對(duì)話歷史和不熟悉的項(xiàng)目時(shí)通常會(huì)遇到信息不足的問題,從而導(dǎo)致系統(tǒng)的性能不理想。而合并外部信息(例如評(píng)論)是一種潛在的緩解此問題的解決方案。鑒于評(píng)論通常來自有著不同關(guān)注點(diǎn)的用戶,并且它們能提供豐富而詳細(xì)的用戶體驗(yàn),因此用戶評(píng)論是在信息豐富的對(duì)話中提供高質(zhì)量推薦的潛在理想資源。
本文提出了基于評(píng)論增強(qiáng)的對(duì)話推薦模型(RevCore),其中用戶評(píng)論的信息被引入模型,幫助其輸出連貫和信息豐富的對(duì)話回應(yīng)。特別地,RevCore提取情感一致的評(píng)論,進(jìn)行基于評(píng)論豐富和實(shí)體的推薦,并使用基于評(píng)論注意力的編碼器-解碼器生成對(duì)話響應(yīng)。在標(biāo)準(zhǔn)數(shù)據(jù)集REDIAL上的實(shí)驗(yàn)結(jié)果表明了該方法在對(duì)話推薦(表1)和對(duì)話響應(yīng)(表2)上有更好的性能。
圖1:基于評(píng)論增強(qiáng)的對(duì)話推薦模型(RevCore)
表1:模型在對(duì)話推薦任務(wù)上的性能
表2:模型在對(duì)話相應(yīng)任務(wù)上的性能
?
教師簡介
副教授
香港中文大學(xué)(深圳) 數(shù)據(jù)科學(xué)學(xué)院?
宋彥教授于2013年獲得香港城市大學(xué)計(jì)算語言學(xué)博士學(xué)位;并于2019年至今擔(dān)任華盛頓大學(xué)客座教授。研究方向?yàn)槿斯ぶ悄埽ㄗ匀徽Z言處理、信息檢索和抽取、文本表征學(xué)習(xí)等。宋教授目前發(fā)表人工智能國際頂級(jí)期刊及會(huì)議論文100余篇,其著作多次被國際人工智能權(quán)威雜志和會(huì)議收錄,如國際計(jì)算語言學(xué)雜志(Computational Linguistics)及其協(xié)會(huì)年會(huì)(ACL)、美國人工智能協(xié)會(huì)年會(huì)(AAAI)、自然語言處理的經(jīng)驗(yàn)方法會(huì)議(EMNLP)、國際人工智能聯(lián)合會(huì)議(IJCAI)等,同時(shí)宋教授還長期擔(dān)任人工智能頂級(jí)會(huì)議程序委員會(huì)委員及高級(jí)領(lǐng)域主席等職。
宋教授加入香港中文大學(xué)(深圳)之前,于2010年在微軟亞洲研究院擔(dān)任訪問研究員,參與構(gòu)建了第一個(gè)大規(guī)模中文組合范疇語法樹庫和語法分析器;于2011-2012年擔(dān)任華盛頓大學(xué)訪問學(xué)者;后于2013年加入微軟研究院(美國總部),為“微軟小冰”項(xiàng)目的創(chuàng)始團(tuán)隊(duì)成員之一;在2017到2019年間,他加入騰訊人工智能實(shí)驗(yàn)室,作為自然語言理解(NLU)團(tuán)隊(duì)首席研究員,領(lǐng)導(dǎo)構(gòu)建了騰訊AI Lab大規(guī)模中文詞向量數(shù)據(jù)集(包括800萬中文詞),該數(shù)據(jù)集成為2018年世界十大人工智能開源數(shù)據(jù)集。除學(xué)術(shù)研究之外,宋教授還于2019年擔(dān)任創(chuàng)新工場大灣區(qū)研究院執(zhí)行院長一職,推進(jìn)人工智能的商業(yè)化及應(yīng)用產(chǎn)出,幫助孵化及推進(jìn)了粵港澳大灣區(qū)多家創(chuàng)業(yè)團(tuán)隊(duì)的人工智能應(yīng)用及產(chǎn)業(yè)化。
?
文章轉(zhuǎn)自數(shù)據(jù)科學(xué)學(xué)院官網(wǎng),鏈接https://sds.cuhk.edu.cn/article/478