近日,上海交通大學長聘教授、通用人工智能研究所所長趙海收到兩個好消息:一是他帶領團隊研發的“腦啟發大語言模型”入選了“交大2030”計劃B類,獲得500萬元經費支持;二是他的研究方向列入了上海市科委“類腦智能”項目申報指南,這份指南設立“顛覆性技術研究”專題,支持科學家探索腦啟發類腦智能的新原理和新方法,研究新型非Transformer架構的類腦大模型通用架構。
Transformer是谷歌在2017年提出的一種深度學習架構,此后經OpenAI持續開發,徹底改變了自然語言處理、計算機視覺等領域的技術格局,成為人工智能大模型普遍采用的架構。那么,上海為何要布局顛覆這種架構的科技項目?類腦大模型的研發進展如何?記者在采訪中了解到值得關注的階段性成果。
從腦科學成果中獲得靈感
ChatGPT風靡全球后不久,就有一些人工智能知名專家質疑Transformer架構的發展潛力。比如,圖靈獎得主楊立昆認為,這種架構面臨計算成本高、缺乏對復雜世界的理解、決策過程“黑箱化”等瓶頸,未來無法實現科學家夢寐以求的通用人工智能——智能體具有高效的學習和泛化能力,能根據所處的復雜環境自主提出并完成任務,且符合人類倫理規范。
今年1月,諾貝爾化學獎得主哈薩比斯談及通用人工智能時說:“也許我們還需要1—2個類似Transformer的突破。”這意味著,Transformer很可能不是大模型架構的最終方案,在探索通用人工智能的道路上,還需要有大的創新突破。
Transformer很可能不是實現通用人工智能(AGI)的最終方案。
模擬人腦,是創新大模型架構的一條路徑,因為作為大自然進化的產物,人腦就是一種通用人工智能體。“2016年,加州大學伯克利分校團隊在《自然》雜志發表了一篇論文,他們發現,大腦皮層的不同區域可編碼特定的語義內容。”趙海向記者介紹了這項腦科學成果。大模型架構可否模擬大腦的語義編碼機制?2023年9月,這位交大教授有了創新靈感,打算顛覆Transformer架構,研發一種“腦啟發大語言模型”。
于是,他自籌科研經費,租借GPU服務器,帶領團隊走進了類腦智能領域的“無人區”。當時,用于訓練大模型的GPU服務器處于價格高位,趙海團隊每月要花18萬元租金。至于研發能否成功,完全是個未知數。面對雙重壓力,他選擇了堅持,因為他相信:通用人工智能的真正基石隱藏在人類大腦中。
新范式模擬人腦全局機制
今年3月,150億參數的“腦啟發大語言模型”(BriLLM)問世,交大團隊開源發布了這個中文大模型的代碼和模型權重。5月,他們發布了“腦啟發大語言模型”中文、英文壓縮版,其大小分別為20億和10億參數,但性能與150億參數大模型相當。測試顯示,這3個非Transformer架構類腦大模型的生成能力達到GPT-1水平,引起了華為公司Fellow蔡華等專家的關注。
“BriLLM是首個在宏觀尺度上模擬人腦全局機制的大語言模型,對機器學習范式做了顛覆性創新。”趙海介紹,它采用“信號全連接流動”機制,以取代Transformer架構的自注意力機制。這種新的機器學習范式模擬大腦皮層編碼特定語義的方式,將詞元(token)直接映射為“有向全連接圖”模型架構上的一個個節點,讓每個節點對應一個語義單元。它還模擬腦電波的傳播方式,讓信號沿著“最小阻力”路徑,在“有向全連接圖”上不斷傳播,選擇性地激活一些語義單元節點,使大模型生成準確的文字內容。
“信號全連接流動”機制示意圖
與Transformer架構大模型相比,“腦啟發大語言模型”有四大潛在優勢:通過模擬人腦的語義編碼和信號傳播機制,獲得人腦的低能耗優勢,大模型計算成本有望大幅降低;每個節點都對應明確語義,決策過程透明可解釋,消除了大模型決策的“黑箱”問題,有利于確保人工智能安全可控;由于信號可在各個節點間無限制傳播,它有望支持無限長的上下文輸入,且無須增加模型規模;與多模態天然適配,在學習圖像和視頻時更接近人類學習方式,不依賴大數據。
憑借這些優勢,趙海團隊經過4輪評審,獲得了“交大2030”計劃B類立項支持。B類項目倡導“從 0 到 1”的原始創新,瞄準世界級基礎科學問題。它不設論文指標,允許項目團隊在科研領域自由使用經費。“我們打算把500萬元主要用于購買算力,未來兩年開發出像ChatGPT那樣的對話式大模型,與Transformer架構大模型展開競爭。”得到項目支持后,趙海對這一顛覆性創新的前景更有信心了。
瞄準百億參數大模型目標
在類腦大模型這一前沿領域,趙海并不是獨行者。記者從中國科學院腦智卓越中心了解到,腦認知與類腦智能全國重點實驗室研究員李國齊在研發“類腦通用智能大模型”。他的技術路線與趙海不同,主要在微觀尺度上模擬大腦神經元的激活方式。
李國齊認為,Transformer架構大模型的基礎是“點神經元模型+自注意力機制”,而人腦的基本計算單位是樹突神經元模型。它比點神經元模型復雜得多,呈樹狀結構,包含多個分支和房室,每個分支和房室都存在不同參數的動力學過程,使樹突神經元模型擁有多尺度的記憶能力。“我們的目標是研究可否將這種人腦機制融入現有大模型,構建一個通用的類腦智能大模型架構。”
為此,他帶領團隊開展了一系列探索:在理論層面,發表了關于脈沖神經網絡訓練算法的多篇論文,將脈沖神經網絡從過去的5—10層拓展到50—500層;在神經元模型層面,提出了多房室、多分支的并行脈沖神經元模型,在解決長序列建模問題上取得進展;在架構層面,提出了“樹突脈沖神經網絡”這個概念,將源自人腦的神經元模型納入機器學習框架。
談及未來研發計劃,李國齊說:“我們希望通過跨學科合作,推動算法、訓練平臺和芯片的深度整合,構建百億至千億參數規模的通用類腦大模型。”
趙海也打算開發百億參數規模的類腦大模型。未來兩年,他將帶領團隊完成中文和英文預訓練、指令微調能力構建、高效推理部署三項任務,開發出規模不低于300億參數的中文和英文“腦啟發大語言模型”,讓用戶體驗到非Transformer架構大模型的優勢。
“我們團隊已走通‘從0到1’的原始創新,接下來要做的是‘從1到10’的升級突破。希望得到政府部門更多的算力支持,讓我們加快迭代類腦大模型。”趙海說。
原標題:《上海布局“類腦大模型”顛覆性創新項目,交大教授挑戰大模型主流架構》
欄目主編:黃海華
來源:作者:解放日報 俞陶然