科技日報記者 楊思晨
40歲第一次接觸計算機,卻成為多語種信息化領域的著名專家、帶頭人,他就是中國工程院院士、新疆大學教授吾守爾·斯拉木。作為中國工程院歷史上第一位維吾爾族院士,民族地區(qū)信息化和智能化發(fā)展始終是吾守爾·斯拉木的關切。
“算力已經(jīng)成為推動世界經(jīng)濟發(fā)展和科技創(chuàng)新的核心力量之一。”在前不久舉行的新疆維吾爾自治區(qū)昌吉回族自治州科技創(chuàng)新大會上,吾守爾·斯拉木表示,這一趨勢將為多語種信息處理帶來新的發(fā)展機遇,加快推動民族地區(qū)信息化與智能化發(fā)展。
吾守爾·斯拉木創(chuàng)建了維吾爾族、哈薩克族、柯爾克孜族(以下簡稱“維哈柯”)語言文字信息處理的理論、方法和技術體系,為國產(chǎn)多語種操作系統(tǒng)和辦公套件等應用軟件的研發(fā)及各領域的應用奠定了基礎。他開辟了我國少數(shù)民族文字信息處理的新領域,推動我國少數(shù)民族進入數(shù)字化辦公新時代。
日前,圍繞我國多語種信息處理的發(fā)展現(xiàn)狀與前景,科技日報記者對吾守爾·斯拉木進行了專訪。
信息交換和文明傳播的核心
記者:您是如何與信息技術這一領域結緣的?
吾守爾·斯拉木:20世紀80年代,計算機、互聯(lián)網(wǎng)等現(xiàn)代信息技術逐漸進入公眾視野。它具備文字、聲音、圖像、影視等多種信息綜合處理能力,極大地改變了人們的生活方式、工作模式以及思維方式。同時,這些技術對我國政治、經(jīng)濟、文化和社會發(fā)展帶來了巨大沖擊。
為了順應時代發(fā)展需求,新疆大學安排我先后前往北京工業(yè)大學、上海交通大學進修計算機等相關專業(yè)。那是我第一次接觸到計算機。當時,我已經(jīng)近40歲。
記者:您如何想到將語言文字與信息技術相結合?
吾守爾·斯拉木:語言的產(chǎn)生是人類歷史上最偉大的信息革命。語言是人類社會化信息活動的首要條件,而文字的創(chuàng)造則確保了人類文明的有效傳承。
文字出現(xiàn)后,為了更好地傳播和傳承信息,造紙術應運而生,并得到進一步推廣。進入近現(xiàn)代,電信傳播技術為信息傳輸提供了極大的便捷。隨后,信息技術崛起。利用計算機和互聯(lián)網(wǎng)收集、加工、存儲、處理、控制信息,使信息交流不再受時間和空間限制,是人類在改造自然過程中又一次新的飛躍。計算機的發(fā)明延伸了人類智力,信息技術革命成為人類文明發(fā)展的推動力。在這一過程中,我們發(fā)現(xiàn),語言文字和信息處理始終是信息交換和文明傳播的核心。
信息技術的發(fā)展徹底顛覆了傳統(tǒng)的信息獲取和交流方式。當我去進修時,中文信息處理已經(jīng)步入了信息化時代,漢字計算機信息處理技術和漢字激光照排系統(tǒng)等為信息時代漢字信息處理等創(chuàng)造了先決條件,中文信息處理技術開始在教育、醫(yī)療、交通、通信、社會生活等各個領域大放異彩。
那時,我國少數(shù)民族語言文字信息處理尚處于空白狀態(tài),甚至連基本的信息輸入輸出都沒有解決。如果這種情況持續(xù)下去,我國邊疆地區(qū)的教育、醫(yī)療、經(jīng)濟、社會發(fā)展等必然會落后于時代。因此,我下決心填補這項空白,讓我國維哈柯等少數(shù)民族同步進入信息化時代,為我國現(xiàn)代化建設作出應有貢獻。
在這一理想的驅(qū)動下,我?guī)ьI多民族研究團隊經(jīng)過多年不懈奮斗,逐步創(chuàng)建了維哈柯文信息處理的理論、方法和技術體系,制定了維哈柯文信息技術國家及國際標準,攻克了多語種信息多媒體化、網(wǎng)絡化、智能化處理的關鍵核心技術。
記者:您如何實現(xiàn)多語種信息處理“從0到1”的突破?
吾守爾·斯拉木:我們團隊在多語言多模態(tài)語音識別、語音合成、機器翻譯、圖形識別等關鍵核心技術及應用領域已深耕30余年,在加強少數(shù)民族語言文字的信息化、智能化、標準化規(guī)范化建設方面做了大量工作。
我們牽頭制定了5項國際標準、22項國家標準,研發(fā)并推廣了多種維哈柯文信息輸入法、專用的編輯排版軟件、智能處理軟件、網(wǎng)絡應用插件,以及維哈柯文多語種Windows系列和Linux系列操作系統(tǒng)本地化版本。我們還研發(fā)了多種多民族文字排版印刷系統(tǒng)、辦公套件、中間件、電子政務系統(tǒng)、應用工具及平臺、各類網(wǎng)絡應用,使少數(shù)民族同胞告別鉛與火,跨入電與光的時代。這些應用軟件在新疆政務、司法、行政、教育、新聞出版、廣播電視、互聯(lián)網(wǎng)、通信以及社會公共事務等領域得到廣泛應用,有力地促進了民族文化交流融合和繁榮發(fā)展。我也因此獲得2022年度中國計算機學會(CCF)最高科學技術獎,并獲得國家科技進步獎3項,以及自治區(qū)科技進步特等獎、何梁何利獎等省部級以上獎勵。
同時,我們團隊建設多語言大規(guī)模多層次語料庫、知識庫,研發(fā)多種語言、文字智能語音翻譯和識別系統(tǒng),保障少數(shù)民族語言文字在新興傳播載體上的有序發(fā)展,以及在經(jīng)貿(mào)、物流、通信等領域的跨語言信息交流。
為人文學科發(fā)展插上智能翅膀
記者:如今,人工智能技術已經(jīng)進入快速發(fā)展期。它將為語言研究帶來哪些影響?
吾守爾·斯拉木:自然語言處理融合了語言學與人工智能,旨在促進機器生成、理解、闡釋及推理人類語言,實現(xiàn)人機間的有效交流。語言智能技術的興起與應用,對語言學、出版審查及文化傳播等產(chǎn)生了沖擊,并引發(fā)了廣泛討論。
有人認為,機器生成的內(nèi)容看似流暢,但并不準確,經(jīng)常出現(xiàn)張冠李戴的情況。而另一些人認為,雖然這些內(nèi)容還不夠完美,但可以幫助人們節(jié)約大量的時間與精力。
隨著語言智能技術的發(fā)展,我們需要區(qū)分基于人和基于計算機的兩種不同的語言理論。一方面,兩者相結合有助于更好地研究語言的根本屬性和規(guī)律。另一方面,探索基于機器的語言理論,可以推動人工智能技術邁向更成熟的語言智能階段,從而產(chǎn)生更多更有用的語言智能產(chǎn)品。
當前,新一代人工智能憑借其強大的數(shù)據(jù)處理能力,有效賦能現(xiàn)代語言學研究,特別是在語言以及語言學數(shù)據(jù)的收集和整理、智能處理與交換等方面發(fā)揮了強大作用。此外,人工智能技術的快速發(fā)展給語言學和其他人文學科的研究帶來了前所未有的機遇。抓住這個機遇,讓大語言模型(LLM)等人工智能模型服務于人文學科研究,將為人文學科的發(fā)展插上智能的翅膀,使其更好地服務于社會。
記者:您如何將人工智能技術運用到多語種信息處理領域?
吾守爾·斯拉木:隨著人工智能等新技術的發(fā)展,我們提出了多語種智能信息處理這一概念。多語種智能信息處理是人工智能在語言信息服務領域的關鍵應用。隨著共建“一帶一路”倡議的不斷深化,加大多語種智能信息處理的研發(fā)力度顯得尤為重要,特別是在國家通用語言文字推廣普及、多語種多模態(tài)語言資源建設、智能處理與識別、多語言大模型應用等方面。這將進一步提升多語種語言資源保護和信息處理能力。
同時,人工智能技術的發(fā)展極大地推動著我們的研究工作,同時對算法優(yōu)化、數(shù)據(jù)規(guī)模擴大、算力提升以及模型構建等提出了更高的要求。當前我們團隊正在積極籌建國家級的新疆融合算力中心,采集大規(guī)模多層次的多語言數(shù)據(jù)庫,研究更高效的算法來訓練多語言多模態(tài)大模型,以支撐高效語言信息智能化服務。
我們團隊主要利用多語言聯(lián)合訓練和數(shù)據(jù)對齊技術提高數(shù)據(jù)質(zhì)量,通過集成學習、遷移學習等技術,將英語、漢語等資源豐富語言的訓練模型參數(shù)或知識遷移到少數(shù)民族語言上,降低重新訓練的成本,提高模型的泛化能力。
我們還通過共享部分網(wǎng)絡結構和參數(shù),進行跨語言遷移學習,減少模型的大小和訓練時間,提高模型的性能。
同時,我們將文本、音頻、圖像等多種媒體數(shù)據(jù)融合在一起,進行認知計算處理和增程式推理,利用不同模態(tài)之間的互補信息來增強模型的表達能力,提高翻譯的準確性和流暢性。
此外,我們針對不同語言的分詞、詞性標注、句法分析等任務,研究具有語言特異性的算法、模型及認知計算,以提高多語種處理的精度和可靠性。
構建多元化人才培養(yǎng)體系
記者:多語種信息處理面臨哪些挑戰(zhàn)?解決這些問題的關鍵是什么?
吾守爾·斯拉木:少數(shù)民族語言具有獨特的語言特性,我們做研究時常需要借鑒其他語言的研究成果,或者與其他研究團隊開展聯(lián)合攻關。在實驗過程中,我們需要對比不同語言的實驗結果,參考其他語言的技術指標。同時,我們還需要對算力技術進行創(chuàng)新,這無疑增加了研究的難度。
此外,由于我們團隊的研究成果廣泛應用于影視、廣播、教育、醫(yī)療、文化等不同領域。針對不同的應用場景,我們需要對模型進行適當?shù)挠柧毢图夹g調(diào)整,以滿足實際需求。
我們的研究也面臨諸多挑戰(zhàn),例如,大規(guī)模多語言文本翻譯、語音翻譯及多模態(tài)語料數(shù)據(jù)的搜集、標注和質(zhì)量管控,涵蓋中亞、西亞語言的多語言大模型訓練關鍵技術研究,基于算力網(wǎng)的分布式訓練和部署一站式多語言交流平臺建設,評測多語言機器互譯效果的數(shù)據(jù)集、指標和方法的系統(tǒng)建設,以中文為核心的多語言多模態(tài)翻譯交流系統(tǒng)的構建和性能優(yōu)化等。這些也是我們團隊繼續(xù)努力的方向。
值得一提的是,多語言語料庫建設尤為重要。多語言語料庫建設涉及語言學、計算機科學與技術、信息與通信、社會學等多個學科領域。語料的質(zhì)量、規(guī)模以及覆蓋程度等,都會影響模型和處理的性能。在研究過程中,我們團隊科學篩選文本語句,邀請語言學家召開論證會,然后選擇在年齡、地區(qū)、性別等方面結構均衡的人群進行專業(yè)錄制,保證語料質(zhì)量。
記者:您認為,多語種智能信息處理未來將如何發(fā)展?
吾守爾·斯拉木:未來,多語種智能信息處理領域?qū)⒚媾R以下幾大變化。
一是跨學科知識融合的需求日益增加。多語種信息處理技術涵蓋多語言語音識別、圖形識別、機器翻譯、聲圖文信息分類與檢測、信息檢索等多個方面。這些研究不再局限于單一學科,而是需要語言學、計算機科學、人工智能、聲學、認知科學等多個學科的交叉融合,需要采用多樣化的處理方法和算法。研究人員需要進行跨學科合作,共同解決語言處理中的復雜問題。
二是技術創(chuàng)新與算法優(yōu)化的需求增加。為了提高多語種信息處理效率和準確性,需要不斷引入新技術進行算法優(yōu)化。
三是構建大規(guī)模多語言知識庫和語料庫至關重要。為了提升多語種信息處理技術的性能,我們需要構建大規(guī)模、多模態(tài)、多層次、綜合型、多語言知識庫和語料庫系統(tǒng)。這些知識庫和語料庫系統(tǒng)需要包含多種語言的文本、語音和圖像等數(shù)據(jù),并需要進行標注和分類、采集和識別。
四是加強人才培養(yǎng)尤為關鍵。多語種信息處理需要培養(yǎng)具有跨學科知識和技能的人才,以滿足該領域的發(fā)展需求。
記者:如何培養(yǎng)面向未來的多語種信息技術處理人才?
吾守爾·斯拉木:未來,我們需要多元化、高素質(zhì)的人才隊伍來支撐多語種信息處理領域的發(fā)展與創(chuàng)新,特別是具備語言學、計算機科學、數(shù)據(jù)科學等多個領域知識和技能的跨學科復合型人才。
為了加強這類人才的培養(yǎng),我認為可以在高等教育中設立多語種信息處理相關專業(yè)或課程,通過實習、實訓等方式讓學生參與實際項目,從而提升實踐創(chuàng)新能力。
高校可以加強與國際知名高校和研究機構的合作與交流,引進先進的教學理念和技術手段,鼓勵學生參與國際學術競賽,提升學生的國際視野和跨文化交流能力。高校還可以舉辦多語種智能信息處理相關的競賽和活動,激發(fā)學生的創(chuàng)新熱情。
此外,網(wǎng)絡平臺也應被充分利用,提供豐富多樣的多語種信息處理相關的課程和學習資源,供學生自主學習。
【致青年科技人才】
青年科技人才處于創(chuàng)新、創(chuàng)造力的高峰期,是國家戰(zhàn)略人才力量的重要組成部分,肩負著建設世界科技強國、實現(xiàn)中華民族偉大復興的歷史重任。
希望廣大青年科技工作者能夠始終秉持深厚的家國情懷、強烈的使命意識,牢固樹立以科技創(chuàng)新服務國家、造福人民的思想,甘坐冷板凳、勇闖無人區(qū)、善打攻堅戰(zhàn),堅持面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,把科技成果應用在國家現(xiàn)代化建設的偉大事業(yè)中。
——吾守爾·斯拉木