GPT中文比國產(chǎn)大模型強?清華大學(xué)孫茂松:英語訓(xùn)練刻畫語義空間,帶動中文能力
大會開場前,圍繞如何提升大模型中文理解能力、人工智能如何賦能基礎(chǔ)
搜狐科技《思想大爆炸——對話科學(xué)家》欄目第18期,對話歐洲科學(xué)院外籍院士、清華大學(xué)計算機與科學(xué)技術(shù)系教授、清華大學(xué)人工智能研究院常務(wù)副院長孫茂松。
(資料圖)
嘉賓簡介
孫茂松,清華大學(xué)計算機科學(xué)與技術(shù)系長聘教授(曾任該系系主任)。清華大學(xué)人工智能研究院常務(wù)副院長,歐洲科學(xué)院外籍院士,國際計算語言學(xué)學(xué)會(ACL)會士,中國人工智能學(xué)會會士、中國中文信息學(xué)會會士。長期從事自然語言處理、人工智能、計算社會人文研究。國家重點基礎(chǔ)研究發(fā)展計劃(973計劃)項目首席科學(xué)家,國家社會科學(xué)基金重大項目首席專家。在國內(nèi)外一流學(xué)術(shù)會議和重要刊物上發(fā)表論文200余篇,Google Scholar論文引用3.4萬次。2016年獲“全國優(yōu)秀科技工作者”。
劃重點
1.ChatGPT主要用英文數(shù)據(jù)做訓(xùn)練,為何中文能力也很強?英語的語料覆蓋面大,質(zhì)量較高,很多學(xué)術(shù)論文都是英文。英語訓(xùn)練很好地刻畫了語義空間,這時再加入中文語料,相當(dāng)于在語義空間里把中文和英文做某種對齊。這種情況下,它的主要能力是由英語帶過來的。
2. 想要進一步提升大模型的中文能力,需建設(shè)高質(zhì)量的語料庫,比如像中文的科技論文庫之類的。另外,大模型真的要做到通用程度的話,英文能力要有,再去做中文,把中文語料再搞大一些,這樣可能會把能力進一步地提升。
3. AI賦能科學(xué)研究我覺得天地遼闊,現(xiàn)在才是剛剛開始,努力耕耘的話,應(yīng)該很快就有不錯的收獲。
4.如果你覺得科研枯燥,就請你不要做科研。一定要有興趣才來做,而不是把它簡單當(dāng)成一份工作,有興趣就不會覺得枯燥,反而會覺得其樂無窮。
出品|搜狐科技
作者|鄭松毅
近日,由中國科協(xié)科學(xué)技術(shù)傳播中心與清華大學(xué)求真書院主辦的基礎(chǔ)科學(xué)與人工智能大會在北京國家科技傳播中心召開。
大會開場前,圍繞如何提升大模型中文理解能力、人工智能如何賦能基礎(chǔ)科學(xué)研究等問題,搜狐科技與歐洲科學(xué)院外籍院士、清華大學(xué)計算機與科學(xué)技術(shù)系教授、清華大學(xué)人工智能研究院常務(wù)副院長孫茂松進行了對話。
孫茂松曾將ChatGPT稱為“通用人工智能的幽靈”,并用杜牧的《阿房宮賦》舉例,ChatGPT精準(zhǔn)的挑出了文中所有描寫阿房宮的句子,令他不禁感嘆ChatGPT理解中文能力之強。
當(dāng)被問及為什么ChatGPT主要用英文數(shù)據(jù)做訓(xùn)練,為什么其仍具備強大的中文理解及創(chuàng)作能力時,孫茂松表示,“英語的語料足夠大,覆蓋面比中文要好,質(zhì)量也比較高,很多學(xué)術(shù)論文都是英文,能被用來訓(xùn)練的就多。因此通過英語的語言訓(xùn)練,很好地刻畫了語義空間。語義空間和語言是相對獨立的,但又不完全獨立,這時候再用一些中文語料,相當(dāng)于在語義空間里把中文和英文做某種對齊。這種情況下,它的主要能力是由英語帶過來的?!?/p>
孫茂松認為,語言大模型提升中文語言能力的關(guān)鍵在于提升中文語料的質(zhì)量和數(shù)量。他強調(diào),“高質(zhì)量的語料庫還要想辦法去建設(shè),比如像中文的科技論文庫之類的,能不能拿來用,這是一方面。另外,大模型真的要做到通用程度的話,英文能力要有,再去做中文,中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升,因為語言之間有很多是可以打通的?!?/p>
談及AI如何賦能基礎(chǔ)科學(xué)研究,以及如何才能堅持做好科研工作時,孫茂松表示,“AI賦能科學(xué)研究我覺得天地遼闊,現(xiàn)在才是剛剛開始,努力耕耘的話,應(yīng)該很快就有不錯的收獲?!彼麖娬{(diào),“如果你覺得科研枯燥,就請你不要做科研。一定要有興趣才來做,而不是把它簡單當(dāng)成一份工作,有興趣就不會覺得枯燥,反而會覺得其樂無窮?!?/p>
以下為對話實錄(經(jīng)整理編輯)
搜狐科技:您曾將ChatGPT稱為“通用人工智能的幽靈”,并用杜牧的《阿房宮賦》舉例,稱贊其理解古文、繪畫中國風(fēng)場景圖的能力令人震驚。我們知道ChatGPT主要做英文,中文是捎帶的,在您看來,為什么其仍具備比一些中國廠商做的語言大模型更強大的中文能力?
孫茂松:ChatGPT處理的空間實際上是語義空間,語義空間從自然語言處理的角度來說是相對穩(wěn)定的,它跟不同的語言有關(guān)系,但核心部分是通用的。
英語的語料足夠大,覆蓋面比中文要好,質(zhì)量也比較高,比如英語的論文能被用來訓(xùn)練的會比中文多不少。因此通過英語的語言訓(xùn)練,很好地刻畫了語義空間。語義空間和語言是相對獨立的,但又不完全獨立,這時候再用一些中文語料,相當(dāng)于在語義空間里把中文和英文做某種對齊。這種情況下,它的主要能力是由英語帶過來的。
搜狐科技:中國現(xiàn)有的大模型似乎對中文的理解能力并不盡如人意,根據(jù)中文指令繪圖、寫作文的能力也不強,在您看來,該從什么方面去提升大模型中文理解和創(chuàng)作的能力?
孫茂松:高質(zhì)量的語料庫還要想辦法去建設(shè),比如像中文的科技論文庫之類的,能不能拿來用,這是一方面。另外的話,大模型真的要做到通用程度的話,英文能力要有,再去做中文,中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升,因為語言之間有很多是可以打通的。
搜狐科技:在您看來,AI是如何賦能基礎(chǔ)科學(xué)的發(fā)展的?
孫茂松:AI賦能科學(xué)研究我覺得天地遼闊,現(xiàn)在才是剛剛開始,努力耕耘的話,應(yīng)該很快就有不錯的收獲。
搜狐科技:很多外界人士認為,做科研工作會較為枯燥,有可能很多年都難以做出突破性的成績,能否請您分享一下對于科研工作價值意義的理解?
孫茂松:如果你覺得科研枯燥,就請你不要做科研。一定要有興趣才來做,而不是把它簡單當(dāng)成一份工作,有興趣就不會覺得枯燥,反而會覺得其樂無窮。