首頁 -> 內地
DeepSeek梁文鋒署名新論文提出“條件記憶”分享到:
香港中通社1月13日電 12日晚,中國科企深度求索(DeepSeek)發布與北京大學共同完成的新論文《基於可擴展查找的條件記憶:大型語言模型稀疏性的新維度》,合著作者署名中出現DeepSeek創始人梁文鋒。
香港中通社資料圖 論文提出條件記憶(conditional memory),通過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。 為了實現“條件記憶”,DeepSeek提出的解決方案是一個名為Engram(直譯為:記憶痕跡)的模塊,它將語言建模任務拆解為“靜態模式檢索”與“動態組合推理”兩大分支:前者負責實體、固定短語等確定性知識的快速調取,後者則交由Transformer架構專注完成複雜邏輯運算。 論文最後表示,“我們將條件記憶視為下一代稀疏模型不可或缺的建模原語。” 同時,DeepSeek開源相關記憶模塊Engram。 中國民間科企DeepSeek於2023年7月創立,總部位於杭州,已發布多款具有廣泛影響力的大語言模型。(完) 【編輯:彭玉婷】
相關新聞 |
視頻更 多
“我感到嫉妒!” 中東小哥深度遊覽大灣區後“破防了”
“阿嬤熱”來襲!這屆香港潮州節星光熠熠 現場火爆 有攤位半天賣出了百隻鹵鵝
香港特首李家超的哈薩克斯坦之行,取得這些成果
定了!《給阿嬤的情書》6月18日香港上映 市民:會二刷三刷 帶上小朋友去看
【通說環球】“鉛筆芯靠我賣”神曲背後:一座非洲百年礦山的“重生”歷程
來香港家鄉市集 買“給阿嬤的情書”同款橄欖菜!
【你不知道的香港】香港的名字,竟來自一種植物
來論更 多評論更 多
論壇更 多閱讀排行
|










