專訪AI專家：資金是香港“DeepSeek級”大模型的東風

首頁 -> 電訊

專訪AI專家：資金是香港“DeepSeek級”大模型的東風

分享到：

2025-02-06 14:44 |

【字號：大中小】

香港中通社2月6日電題：專訪AI專家：資金是香港“DeepSeek級”大模型的東風

香港中通社記者梁嘉軒

近日，來自浙江的DeepSeek R1模型橫空出世，R1模型無疑為行業的下一前沿帶來引導和啟發。香港社會各界都在討論AI。為何香港坐擁5間全球百強大學，卻未有如ChatGPT、DeepSeek般“家喻戶曉”的AI產品？

現任職於香港理工大學電子計算學系的楊紅霞教授，曾組建阿里巴巴、字節大模型團隊。她接受中通社記者專訪認為，香港若要做出DeepSeek、OpenAI般的AI產品，需要特區政府、研究撥款機構及業界投入更多資源，並加強合作推動基礎建設級的平台，以多個小模型搭建大模型。

為追上世界AI的步伐，不重蹈芯片行業的覆轍，香港特區政府及科創業界近年大力發展AI，並在數碼港建立“超算中心”等AI基建項目，特區政府更撥款30億港元，推行為期三年的人工智能資助計劃。楊紅霞告訴記者，這遠遠不夠，光“超算中心”的算力就已經難以應付開發大模型的需求。

DeepSeek被廣泛討論的其中一大原因，是它的訓練成本只有550萬美金，但楊紅霞告訴記者，大模型的訓練包括數據的預處理和對齊階段，其中預處理的成本遠高於對齊階段，她認為該550萬美金主要指對齊階段的訓練成本，R1的基礎模型是基於DeepSeek-V3 6710億項參數的混合專家模型（MoE），整體訓練至少需要數千張顯卡。

楊紅霞指出，DeepSeek創始人梁文峰以量化金融交易出身，其團隊本身已有較成熟的資金和基礎建設，更是中國第一家擁有萬卡集群算力的企業。“因此，看見DeepSeek的成功而認為AI的發展可以通過低成本實現，是錯誤的想法。”預處理階段需要給模型灌入大量數據，此階段已經耗用大量算力，這部分的成本難以節約。

楊紅霞承認，在寸土寸金的香港，要建立具萬卡集群算力的超算中心有一定難度，但她認為香港有潛力以“模型之上的模型”框架（MoM）發展AI，即科創企業專注其熟悉的領域發展小模型，並通過基建級別的模型串連在一起，這樣能更大程度地發揮出數碼港、科技園及香港各院校內的算力資源，做出來自香港的大模型。

楊紅霞指出，這樣的好處是成本遠低於傳統大模型的建立。對比大模型對顯卡的需求動輒上萬張，通過MoM框架創建一個1000億項參數的基礎模型僅需512至1024張顯卡。建立小模型所涉及的數據預處理也遠少於大模型，更適合香港分佈較散和不同型号的算力資源。

此外，更多的企業可參與到AI的發展中，她舉例從事醫療的科研人員處理數據的方式會與計算機專業的有所區別，而目前的大模型非常依賴互聯網上的數據，因此正如醫療般需要專業處理方式、依賴互聯網上所缺乏之數據，若從事這些專業的人員可以參與到AI的小模型建設中，再通過香港基建級的AI平台將其打通，香港有能力打造出具有影響力的大模型。

目前，香港並不缺乏人工智能相關的人才，缺乏的是資金及與資金高度相關的算力。因此，楊紅霞建議特區政府應加強對高等院校在AI上的投資，“你不去投這個東西，它就轉不起來”。（完）