百度CTO王海峰:文心一言是百度技術積累和產業實踐的水到渠成

3月17日消息,百度日前在北京總部召開新聞發布會,百度創始人、董事長兼首席執行官李彥宏和百度首席技術官(CTO)王海峰出席。
會上,李彥宏展示了新一代知識增強大語言模型文心一言在文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成五個使用場景中的綜合能力,王海峰解讀了文心一言的技術特性及其背后的技術積累。
王海峰認為,文心一言是百度多年技術積累和產業實踐的水到渠成,尤其是飛槳深度學習平臺和文心大模型的聯合優化,為文心一言提供了堅實的技術支撐。據介紹,文心大模型從2019年發布以來,已經從最初的自然語言理解大模型,發展成了跨語言、跨模態、跨任務、跨行業的能力完備的大模型平臺。
據了解,文心一言是新一代知識增強大語言模型,也是百度繼文心一格之后的又一個生成式AI產品,具備對話交互、內容創作、知識推理、多模態生成等能力。王海峰表示,新一代知識增強大語言模型文心一言,是在ERNIE及PLATO系列模型的基礎上研發的。
王海峰介紹,文心一言的關鍵技術包括有監督精調、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會采用的技術,ERNIE和PLATO中已經有應用和積累,在文心一言中又有了進一步強化和打磨;后三項則是百度已有技術優勢的再創新,也是文心一言未來越來越強大的基礎。
圖源:百度官微,下同
在知識增強方面,文心一言的知識增強主要是通過知識內化和知識外用兩種方式。知識內化,是從大規模知識和無標注數據中,基于語義單元學習,利用知識構造訓練數據,將知識學習到模型參數中;知識外用,是引入外部多源異構知識,做知識推理、提示構建等。
在檢索增強方面,文心一言的檢索增強,來自以語義理解與語義匹配為核心技術的新一代搜索架構。通過引入搜索結果,可以為大模型提供時效性強、準確率高的參考信息,更好地滿足用戶需求。
在對話增強方面,基于對話技術和應用積累,文心一言具備記憶機制、上下文理解和對話規劃能力,實現更好的對話連貫性、合理性和邏輯性。
王海峰強調,飛槳深度學習平臺支撐文心一言效果更好、效率更高、性能更強。他表示,文心大模型加上飛槳深度學習平臺,夯實了產業智能化基座。隨著文心一言與飛槳平臺的進一步融合發展,人工智能技術和應用的研發將越來越標準化、自動化和模塊化,加速人工智能的工業大生產,同時也反哺文心一言加速迭代進化,落地更多場景和行業,為千行百業智能化升級帶來不竭動力。
據王海峰介紹,如今,飛槳平臺已凝聚535萬開發者,服務20萬企事業單位,基于飛槳創建了67萬個模型。
