<匯港通訊> 內地人工智能(AI)初創 DeepSeek(深度求索)在元旦日發布了一篇新論文,提出了一種名為 mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。
簡單來說,DeepSeek 提出的 mHC 通過將傳統 Transformer 的單一殘差流擴展為多流並行架構,並利用 Sinkhorn-Knopp 演算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
這篇論文的第一作者有三位,包括解振達、韋毅軒、Huanqi Cao。值得注意的是,DeepSeek 創始人梁文鋒也在作者名單中。 (BC)
#DeepSeek #梁文鋒 #AI
新聞來源 (不包括新聞圖片): 滙港資訊