百度AI,和“吳文俊獎”同行的十二年、千丈山、萬里路

今天,AI正作為一個科技發(fā)展周期的軸心,成為萬眾矚目的焦點。與歷史上數(shù)次技術革命和AI浪潮所不同的是,這次AI的全球領先陣營里,有了中國的身影。

從一個學術靈感,到一項全球領先的專利技術,從一篇頂會論文到一個宏大的AI產(chǎn)業(yè)布局,中國AI的量變和質(zhì)變,凝結(jié)了無數(shù)人扎根在泥土中一步一個腳印的寸進。

5月6日,第十二屆吳文俊人工智能科學技術獎頒獎典禮正式舉辦。其中,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰帶領團隊完成的“知識與深度學習融合的通用對話技術及應用”成果,榮獲“2022年度吳文俊人工智能科技進步獎特等獎”,這也是“吳文俊獎”首次評出特等獎。

這一個特殊的時刻,承載了一個“中國人工智能最高獎”、一個中國AI科學家、一個中國AI科技企業(yè)的十二年光陰。

如果大家對中國AI如何一步步前行而感到好奇,那么這個獎項正好是機會,可以看到一個人和一家企業(yè),究竟是如何征服山嶺的。

敢登千丈山:和“吳文俊獎”同行的百度攀山路

這兩天,大家一定看到了很多“吳文俊獎”的消息。

將時間退回到2011年,中國人工智能學會剛剛發(fā)起“吳文俊人工智能科學技術獎”的那一天,絕大多數(shù)人都無法想象,中國AI能有這樣的盛況。

十二年,對于“吳文俊獎”,以及百度和王海峰,都是一條值得感慨的時間旅程。

十二年前,剛剛發(fā)起的“吳文俊獎”規(guī)模尚小,第一屆只頒出了五個獎項,獲獎者大多來自北京郵電大學、中科院自動化所等高校院所。十二年來,該獎先后授予了兩百多個單位和行業(yè)機構(gòu),以及七百多位專家學者,見證了中國AI學術力量和產(chǎn)業(yè)力量的崛起。

這個中國AI醞釀量變的過程,百度的身影一直都在。

早在2010年,大部分人對AI的想象,還跟科幻電影一樣,覺得非常遙遠、看不懂的時候,百度已經(jīng)開始積累AI技術。2010年,王海峰加入百度,推動NLP、知識圖譜、深度學習等AI技術進入新的應用空間。

百度技術進入了新的階段,一系列AI布局接連啟動。比如2010年成立的百度自然語言處理部(NLP),是百度歷史最悠久的基礎技術部門之一;2013年,百度深度學習研究院(IDL)成立,是中國產(chǎn)業(yè)界最早觸摸深度學習技術的機構(gòu)之一。隨后百度又相繼打造了大數(shù)據(jù)實驗室BDL、硅谷人工智能實驗室SVAIL、百度研究院等研究機構(gòu)。

正是與AI的結(jié)緣夠早、夠深,百度才能在人工智能領域達成全面領先,第一個看到未知的遠處風景。

王海峰,作為推動AI產(chǎn)學研融合的一面旗幟,是“吳文俊獎”十二年歷史中,首個“吳文俊人工智能杰出貢獻獎”的獲得者。

王海峰團隊的“知識與深度學習融合的通用對話技術及應用”,則拿下了吳文俊人工智能科技進步獎首個特等獎。

從中,我們也可以看到,“吳文俊獎”究竟在嘉獎什么。

能夠讓代表中國人工智能領域最高榮譽的“吳文俊獎”,打破常規(guī),因為百度AI不斷深入技術無人區(qū),主動探索那些未被發(fā)覺的地帶。

以此次獲“特等獎”的 “知識與深度學習融合的通用對話技術及應用”為例,這一研究項目解決了該領域的四方面技術難題:

提出了基于知識統(tǒng)一表示的通用對話管理技術,解決了對話不連貫的難題;提出了融合知識的流式對話語音識別技術,解決了對話聽不清的難題;提出了知識增強的通用對話理解技術,解決了理解不準確的難題;提出了基于隱變量與知識的對話生成技術,解決了回復有錯誤的難題。

王海峰在發(fā)表獲獎感言時提到:“通用對話技術是人工智能領域最具挑戰(zhàn)性的方向之一,也被認為是通用人工智能的必備能力。團隊多年來持續(xù)在技術上探索和創(chuàng)新,突破了知識與深度學習融合的通用對話技術,目前已廣泛應用于各行各業(yè)和人們生產(chǎn)生活中。”

敢登千尺山的百度,最終和“吳文俊獎”一起,見證中國AI一路走來,和世界頂峰相見。

深耕AI路:夯實底層技術,長出文心一言

對于首個吳文俊人工智能科技進步獎特等獎,院士專家給出了這樣的評語,“整體技術指標與應用效果達到國際領先水平,極大地提升了我國在這一領域的科技競爭力和產(chǎn)業(yè)影響力”。

不難看到,學術高度與產(chǎn)業(yè)廣度,是百度獲獎研究項目的兩大特點。

據(jù)了解,百度的通用對話技術已經(jīng)獲授權發(fā)明專利82項,發(fā)表高水平論文36篇,在國際權威評測中獲得了11項世界冠軍。同時,其也實現(xiàn)了大規(guī)模的產(chǎn)業(yè)應用,基于小度等業(yè)務,支持了5億智能設備的對話能力提升,服務了超過10億用戶,其應用領域覆蓋通信、金融、汽車、能源等20多個行業(yè)。

如今,百度在通用對話技術上的積累和突破,也經(jīng)由技術藍圖,流向了全新的領域。比如讓全球矚目的AI新貴:大語言模型。

很多人都認為,文心一言是全球第一個由科技大廠自研的大語言模型。它的出現(xiàn)讓中國快速躋身全球LLM的第一梯隊,為中國AI爭取到了更大的戰(zhàn)略空間,而文心一言的背后,就有成熟的通用對話技術作為支撐。

對話增強是文心一言的核心技術特征之一,讓文心一言具備更強的上下文理解、多輪對話能力,強化文心一言對話的完成度、連貫性、合理性,而對話增強,就是百度基于通用對話技術優(yōu)勢的再創(chuàng)新。百度提出了全球首個基于隱空間的生成式開放域?qū)υ挻竽P臀男腜LATO,不斷提高模型的內(nèi)容豐富性和連貫性。文心PLATO是百度研發(fā)的具有大規(guī)模參數(shù)的中英文對話預訓練生成模型,經(jīng)歷多次升級,現(xiàn)已升級到百億參數(shù)的文心PLATO版本。正是長期積累下來的通用對話技術,讓文心一言具備了對話增強這個關鍵優(yōu)勢。

除了對話增強之外,文心一言還具備知識增強、檢索增強等技術特點。

在知識增強方面,得益于百度構(gòu)建的5500億事實的知識圖譜,以及早在2019年3月就提出了知識增強的語義理解框架ERNIE,百度不斷強化語義理解技術能力。

文心一言基于龐大的知識圖譜來做知識增強,從海量數(shù)據(jù)和大規(guī)模知識中融合學習,還可以直接調(diào)用知識圖譜做知識推理,自動構(gòu)建提示,高效滿足用戶需求。

而檢索增強也是基于百度已有的語義理解技術優(yōu)勢的創(chuàng)新。百度擁有世界上最大的中文搜索引擎,百度搜索已經(jīng)發(fā)展到基于語義理解和匹配的新一代搜索架構(gòu),深入理解用戶需求和網(wǎng)頁內(nèi)容,進行語義匹配,得到更精準的搜索結(jié)果,進而為大模型提供準確率高、時效性強的參考信息,更好地滿足用戶需求。

更值得一提的是,文心一言還在飛速成長中。

王海峰在一次采訪中透露,在內(nèi)測時,有員工疑惑,文心一言怎么寫不好藏頭詩,而當時文心一言還處于學習階段,王海峰很有信心,說“差不多明后天就能學會了”,果然第二天文心一言就能寫藏頭詩了。王海峰說:“信心就是因為我們對系統(tǒng)的能力有比較準確的把握?!?/p>

最近,飛槳又專門針對文心一言做了專項優(yōu)化,一個月內(nèi)迭代了4次,推理性能提升10倍,其中業(yè)內(nèi)首創(chuàng)的支持動態(tài)插入的分布式推理引擎,推理性能提升了123%。

可以說,文心一言的各個方面,都展現(xiàn)出了百度夯實底層技術,系統(tǒng)化積累技術優(yōu)勢的技術戰(zhàn)略。顯然,王海峰的技術視野與技術關懷,在其中扮演了關鍵角色。

技術攀登是一個非常漫長的過程,如果沒有對于技術動能的持續(xù)補充,可能因為“體力不支”,而無法堅持到登頂?shù)哪且惶??;谖男拇竽P?ERNIE 及對話大模型 PLATO的文心一言,能走的更遠、更快,靠的正是百度AI技術的持久續(xù)航。

青山遮不住:百度AI,向產(chǎn)業(yè)沖鋒

從“訓大模型”到“用大模型”,已經(jīng)成為中國產(chǎn)學政各界這一波大語言模型浪潮的深層期待。

如何穿越AI與產(chǎn)業(yè)之間的無人區(qū),走向千行百業(yè),與社會更具深度地融合,是今天擺在科技企業(yè)面前的新挑戰(zhàn)。

文心一言的技術核心,來自百度積累了十余年的四層架構(gòu):芯片、框架、模型、應用,這一整套技術體系,共同支撐文心一言向產(chǎn)業(yè)沖鋒。

芯片層,百度有自研的量產(chǎn)AI芯片昆侖。同時,百度還跟硬件行業(yè)上下游建立了緊密的合作,與主流國內(nèi)外芯片廠商進行了非常好的適配,所以任何一家有合適的AI算力,文心一言都能用得起來,這就保障了后續(xù)AI業(yè)務發(fā)展所需要的算力資源。

框架層,百度自主研發(fā)的中國首個開源開放的產(chǎn)業(yè)級深度學習平臺飛槳,支撐了大模型的靈活開發(fā)、高效訓練和推理部署。

模型層,文心大模型 ERNIE 及對話大模型 PLATO等自研模型已經(jīng)證明了,文心一言的核心技術都是掌握在中國企業(yè)手里。

應用層,百度已經(jīng)打造并開放了200多項AI能力和應用,并在飛槳平臺提供大量應用模型、開發(fā)者工具,以及定制化服務,幫助各行業(yè)更簡單地將AI用起來。

這四層架構(gòu),合在一起,展現(xiàn)出百度AI布局的全面與長遠,也成為文心一言持續(xù)向上攀爬的保障。

用王海峰的話說,有了百度獨特的技術和積累,能給普通用戶帶來不一樣的感受:一是效果更好,文心一言能記住上下文,給出更新的信息、更準確的知識;二是效率更高,模型推理效率提高,用戶等待的時間更短了。

從中,我們能看到,百度AI在產(chǎn)業(yè)中鮮明的差異化特征:

1.向上,保持核心技術突破,勇于探索技術無人區(qū),主動承擔了全球范圍內(nèi)底層技術的突破任務,保持著中國AI與世界最前沿的并列或領先。

2.向下,做實AI基礎設施,確保產(chǎn)業(yè)自主可控。大模型訓練推理,需要芯片、框架、開發(fā)工具等一系列軟硬件,核心基礎設施不能掌握在自己手里,產(chǎn)業(yè)使用時就會有顧慮。百度在AI領域四層架構(gòu)實現(xiàn)了全面的核心技術自研,解除AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的后顧之憂。

3.向前,帶頭構(gòu)建產(chǎn)業(yè)生態(tài),打通大模型到產(chǎn)業(yè)的關隘。通過開源開放的飛槳生態(tài),以及飛槳產(chǎn)業(yè)賦能中心,把AI技術沉淀下去、開放出去、讓各行業(yè)都用起來,幫助更多人爬上AI這座高峰,看見路前方的風景。

此時再回眺百度AI,會發(fā)現(xiàn)領先不是一個結(jié)果,而是由一個個技術腳印所串聯(lián)起來的過程。這些過往凝結(jié)在一起,才有了我們熟悉的百度AI,與新生的文心一言。

獲得“吳文俊獎”,頂峰之上的百度,正在攀登更高的山。大模型所開啟的AI與產(chǎn)業(yè)融合之路,有如一片未知的土地,蘊藏著極大價值可能性,但也充滿了變數(shù),需要勇敢者先抵達彼端,一探究竟。

十二年彈指一瞬,走在科技前沿的百度,已踏上天地重開一境寬的新旅途。青山萬丈,遮不斷赤子的眼眸;雀喧鳩聚,擋不住行者的腳步。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-05-07
百度AI,和“吳文俊獎”同行的十二年、千丈山、萬里路
今天,AI正作為一個科技發(fā)展周期的軸心,成為萬眾矚目的焦點。與歷史上數(shù)次技術革命和AI浪潮所不同的是,這次AI的全球領先陣營里,有了中國...

長按掃碼 閱讀全文