首頁 -> 內地

DeepSeek梁文鋒署名新論文提出“條件記憶”

分享到:
2026-01-13 17:43 | 稿件來源:香港中通社

【字號:

香港中通社1月13日電  12日晚,中國科企深度求索(DeepSeek)發布與北京大學共同完成的新論文《基於可擴展查找的條件記憶:大型語言模型稀疏性的新維度》,合著作者署名中出現DeepSeek創始人梁文鋒。

香港中通社資料圖

論文提出條件記憶(conditional memory),通過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。

為了實現“條件記憶”,DeepSeek提出的解決方案是一個名為Engram(直譯為:記憶痕跡)的模塊,它將語言建模任務拆解為“靜態模式檢索”與“動態組合推理”兩大分支:前者負責實體、固定短語等確定性知識的快速調取,後者則交由Transformer架構專注完成複雜邏輯運算。

論文最後表示,“我們將條件記憶視為下一代稀疏模型不可或缺的建模原語。”

同時,DeepSeek開源相關記憶模塊Engram。

中國民間科企DeepSeek於2023年7月創立,總部位於杭州,已發布多款具有廣泛影響力的大語言模型。(完)

【編輯:彭玉婷】

視頻

更 多
28支龍獅隊齊集錦田爭奪“獅王”殊榮 龍獅隊員:十年後再來表演舞獅爭霸!
周潤發率“百歲”港星團跑馬拉松:重在完成,重在和觀眾打個招呼
樓市寒冬已過?現在是買樓好時機嗎?聽聽地產專家怎麼說
誰能成為下一個Labubu? 潮玩商家們為何集體聚焦盲盒發展?
香港立法會舉行首次會議 通過大埔火災後支援及重建工作議案
【你不知道的香港】高樓林立的香港正悄然進行一項“移山計劃”......
【通說環球】科幻照進現實?解碼中國“南天門計劃”