DeepSeek V3和R1的創(chuàng)新系統(tǒng)架構源于對AI推理效率與成本平衡的突破性探索。V3作為混合專家(MoE)模型,總參數(shù)達671B,采用多頭潛在注意力(MLA)和無輔助損失負載均衡策略,通過FP8混合精度訓練優(yōu)化資源消耗,預訓練14.8萬億Token,成本僅為同類模型的1/15。R1則基于V3架構,首次通過純強化學習(RL)激發(fā)推理能力,無需監(jiān)督微調(SFT),結合冷啟動數(shù)據(jù)與群體相對策略優(yōu)化(GRPO)算法,顯著提升數(shù)學、編程等結構化任務性能,并通過蒸餾技術將推理能力遷移至小模型,實現(xiàn)低成本高效部署。這一架構革新推動了國產(chǎn)AI算力生態(tài)發(fā)展,降低對高端GPU的依賴,加速了AGI的商業(yè)化進程。
在這一技術革新的背景下,安擎正在積極推進DeepSeek AI服務器產(chǎn)品的適配與調優(yōu),并與業(yè)界合作伙伴共同打造基于安擎AI服務器及集群管理的全棧解決方案。與此同時,安擎資深技術專家將深入研究DeepSeek發(fā)布的核心論文,通過學習和理解其模型創(chuàng)新技術,探索其創(chuàng)新思路,致力于構建更具前沿競爭力的AI服務器系統(tǒng)及解決方案,與客戶及合作伙伴共同構建創(chuàng)新驅動的生成式人工智能生態(tài)。以下是DeepSeek 四篇核心論文概述及關鍵創(chuàng)新點梳理:
1.《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
概述:
該論文提出了一種通過純強化學習(RL)自主激發(fā)大語言模型(LLM)推理能力的方法,結合群體相對策略優(yōu)化(GRPO)算法和雙階段訓練策略(推理導向RL與通用對齊RL),顯著提升了模型在數(shù)學、編程等結構化任務中的性能。實驗顯示,其Pass@1準確率在AIME 2024任務中達79.8%,推理成本僅為同類模型的1/30。
創(chuàng)新點:
· GRPO算法:替代傳統(tǒng)PPO,通過組內獎勵對比優(yōu)化策略,無需獨立價值模型,降低計算開銷28。
· 冷啟動+多階段RL:結合少量高質量推理鏈數(shù)據(jù)微調,規(guī)范輸出格式(如標簽),提升可讀性與任務適應性2。
· 蒸餾技術:將80萬條推理數(shù)據(jù)用于小模型微調,7B模型在數(shù)學任務中超越32B基線模型,實現(xiàn)高效推理能力遷移210。
2.《DeepSeek-V3 Technical Report》
概述:
該技術報告介紹了DeepSeek-V3的混合專家(MoE)架構,包含671B總參數(shù)(每個Token激活37B),采用多頭隱注意力(MLA)和無輔助損失的負載平衡策略,預訓練14.8萬億Token。其在MATH-500任務中準確率達97.3%,訓練成本僅為Llama 3系列的1/15,性能對標GPT-4o。
創(chuàng)新點:
· MLA與DeepSeekMoE:提升推理效率與經(jīng)濟性,支持128K長上下文處理69。
· 多Token預測(MTP):擴展預測范圍至多個未來Token,增強數(shù)據(jù)效率和表征預規(guī)劃能力6。
· 低成本訓練優(yōu)化:通過FP8混合精度訓練和工程優(yōu)化,每萬億Token訓練僅需18萬H800 GPU小時,顯著降低資源消耗。
3.《DeepSeek-R1-Zero: Self-Evolving Reasoning via Pure Reinforcement Learning》
概述:
探索無需監(jiān)督微調(SFT)的純RL訓練路徑,驗證模型通過GRPO自主涌現(xiàn)“反思”和“多步驗證”等復雜推理行為。初始版本在AIME任務中Pass@1從15.6%提升至71.0%,多數(shù)投票后達86.7%,但存在多語言混雜與可讀性缺陷。
創(chuàng)新點:
· 自我進化現(xiàn)象:模型在訓練中自發(fā)形成糾錯與驗證能力,如數(shù)學解題中的“Aha時刻”。
· 極簡獎勵設計:僅依賴答案正確性與格式規(guī)范,避免復雜獎勵模型導致的訓練偏差。
4.《Efficient Knowledge Distillation for Reasoning-Centric LLMs》
概述:
提出基于動態(tài)權重分配的跨維度知識蒸餾方法,將32B大模型的推理邏輯遷移至7B小模型,使其在AIME任務中性能提升23%,超越原32B模型。
創(chuàng)新點:
· 思維范式遷移:解構大模型的認知模式,而非單純知識記憶,提升小模型的元推理能力。
· 低成本部署:7B蒸餾模型在邊緣設備實現(xiàn)高效推理,降低硬件依賴。
DeepSeek的核心論文主要圍繞強化學習驅動的推理優(yōu)化(R1系列)和高效架構設計(V3系列)展開。通過算法創(chuàng)新(如GRPO、MTP)和工程優(yōu)化(如FP8訓練、蒸餾技術),DeepSeek成功實現(xiàn)了性能與成本的平衡。此外,其開源策略(例如發(fā)布1.5B至70B的蒸餾模型)進一步推動了AI技術的民主化,為邊緣計算和垂直領域應用提供了新的范式。
DeepSeek的成功在全球范圍內引發(fā)了廣泛關注和深入探討,特別是其系統(tǒng)架構的創(chuàng)新成為焦點。在綜合國內外技術流派的觀點,并結合安擎在AI服務器開發(fā)設計領域的多年積累以及對DeepSeek 以上核心論文的深入研究后,我們將其系統(tǒng)架構之道總結為“逆向漸進式創(chuàng)新出圈”。鑒于讀者對AI大模型的了解程度各異,本文以淺顯易懂的語言展開,運用類比的方式剖析關鍵技術,避免過多引用復雜論文內容,旨在讓零基礎讀者理解DeepSeek架構的核心理念。對于AI大模型領域的資深讀者,本文可作為啟發(fā)性讀物,助力快速提煉要點,并根據(jù)需要進一步閱讀論文原文。我們期待本文對DeepSeek架構的總結能與您產(chǎn)生共鳴。
DeepSeek V3混合專家系統(tǒng)(MoE)和多頭潛在注意力(MLA),漸進式創(chuàng)新典范
漸進式創(chuàng)新與顛覆式創(chuàng)新是技術演進的兩種路徑。前者通過持續(xù)優(yōu)化現(xiàn)有技術比如算法效率提升等,在現(xiàn)有市場框架內提升性能、降低成本;后者以突破性技術重構產(chǎn)業(yè)邏輯,通過創(chuàng)造新需求或替代舊范式開辟增量市場。二者共同推動技術螺旋上升,漸進創(chuàng)新維持競爭力,顛覆創(chuàng)新驅動范式躍遷。結合國內大模型基礎以及高端算力資源使用受限的現(xiàn)實,基于可用的模型生態(tài)資源基礎,Deepseek V3 系統(tǒng)架構采取了務實且高效的漸進式工程創(chuàng)新路徑,以MoE和MLA為例,進一步闡述其漸進式創(chuàng)新之道。
MoE并非DeepSeek首創(chuàng),其最早的應用甚至不在LLM領域,而是出現(xiàn)在谷歌的廣告投放和預測模型中。國外大模型研發(fā)機構通常擁有充足算力資源,可穩(wěn)定提升模型性能,而DeepSeek團隊面臨嚴格的算力限制,只能通過創(chuàng)新破局。MoE架構基于“專家團隊”分工協(xié)作,專家間的高效溝通是關鍵。DeepSeek在此基礎上,納入動態(tài)子模型激活創(chuàng)新,實現(xiàn)了“讓正確的專家完成正確的合作”,從而突破資源瓶頸。以裝修房子為例,形象化的解釋MoE和傳統(tǒng)架構核心原理以及DeepSeek MoE創(chuàng)新所在。
如圖1所示的傳統(tǒng)AI模型,就像你請了一個全能裝修師傅,他既懂水電、木工,又會刷墻鋪地板。但無論任務是裝水管還是打柜子,他每次都得獨自完成所有步驟。比如讓他“裝個插座”,他需要先回憶水電知識,再復習木工技巧,最后還要檢查刷墻步驟。雖然他很努力,但效率低下(每項任務都要重復完整流程),計算資源消耗大(容易“累”),遇到復雜任務(如全屋精裝)還可能忙不過來。而MoE(混合專家模型)則完全不同。你雇了一個裝修隊長,他手下有水電專家、木工專家、油漆專家和設計師。每當你提出需求(比如“裝個復古吊燈”),隊長會迅速判斷:“這任務80%是水電問題,20%涉及設計”,然后只派水電工和設計師來干活,其他人則繼續(xù)待命。結果是:任務完成得又快又好(計算資源精準分配),團隊還能隨時擴容(新增專家不影響整體運行)。
MoE大模型架構核心就是通過動態(tài)路由機制將輸入數(shù)據(jù)分配到不同的子網(wǎng)絡(或者說專家)進行處理每次應用的時候只會激活部分的專家這樣就可以提高計算的效率降低訓練和推理的成本。DeepSeek MoE采用動態(tài)專家激活與參數(shù)高效利用,無輔助損失負載均衡,模塊化可擴展架構,F(xiàn)P8低精度訓練與硬件協(xié)同優(yōu)化等創(chuàng)新技術,實現(xiàn)了“讓正確的專家完成正確的合作”。這進一步解釋了6700億參數(shù)中DeepSeek V3只需要激活370億參數(shù)的原因所在。
MLA (Multi-Head Latent Attention) 多頭潛在注意力是DeepSeek在V3版本架構上的創(chuàng)新,實現(xiàn)優(yōu)化顯存與計算效率,通過低秩鍵值聯(lián)合壓縮(Low-rank Key-Value Joint Compression)和潛在變量建模,減少推理時的KV緩存占用,同時保持或提升模型性能,解決了傳統(tǒng)MHA (Multi-Head Attention) 多頭注意力架構,因并行多個注意力頭捕捉輸入序列的不同關聯(lián)造成的顯存占用高、長序列計算效率低的問題。以編輯雜志為例,形象化的描述MLA和MHA的核心原理以及MLA的創(chuàng)新所在。如圖2所描述,基于MHA的普通模型:每個欄目的寫作需要所有編輯同時參與,每個人都要記住整本書的情節(jié)(存儲所有KV緩存),導致效率低下。MLA模型:主編先提煉出每個欄目的領域(潛在向量),然后根據(jù)當前欄目的領域(如物理、航空航天)只調用相關領域的編輯(專家),其他人休息。這樣既節(jié)省時間,又保證內容質量。
DeepSeek R1 基于群體相對策略優(yōu)化(GRPO)的強化學習架構,引領逆向創(chuàng)新風向
DeepSeek技術突破的標志性成果當屬其推理模型雙星——DeepSeek-R1-Zero與DeepSeek-R1,這兩大模型的問世首次構建起與OpenAI o1推理體系的技術抗衡能力。在R1系列面世前,OpenAI的o1長期占據(jù)推理模型賽道的壟斷地位。DeepSeek實現(xiàn)"破圈傳播"的核心創(chuàng)新體現(xiàn)在雙重維度:顯性交互層面,R1模型不僅輸出最終結果,更首創(chuàng)"思維過程可視化"機制,將隱式推理鏈條轉化為可解釋的逐步推導路徑;技術底層層面,其突破性在于構建了完全脫離人類反饋的強化學習訓練范式。值得注意的是,R1的技術演進始自其前身R1-Zero,研發(fā)團隊在該原型階段實施了極具風險的技術驗證:采用純強化學習框架,摒棄監(jiān)督微調環(huán)節(jié),直接探索大模型在零人工標注數(shù)據(jù)環(huán)境下自主演化推理能力的可能性。這項被稱為"無監(jiān)督認知覺醒"的實驗,最終驗證了語言模型通過自主探索-利用機制發(fā)展出復雜推理能力的可行性。如圖3所示,DeepSeek R1研究論文中展示的自進化強化學習架構示意圖,其技術框架以"環(huán)境交互-策略內生-獎勵自洽"三重機制為理論根基,重點論證了無需人類反饋的強化學習范式作為系統(tǒng)核心支柱的可行性。
圖3 自進化強化學習架構示意圖
(來自DeepSeek R1論文)
為便于理解,簡單來說,強化學習是一種通過試錯來學習最優(yōu)策略的方法,其核心在于為機器提供大量數(shù)據(jù)和一個獎勵函數(shù)(reward function)。以AlphaGo為例,它最初通過模仿人類棋譜學習下棋,但最終通過強化學習實現(xiàn)了從模仿到超越人類的突破。在這一過程中,AlphaGo完全摒棄了人類棋譜,轉而通過自我對弈不斷優(yōu)化策略,最終達到超越人類頂尖水平的成就。如圖4所示,以AlphaGo為例,形象化地展示了監(jiān)督學習和強化學習的基本原理。
圖4 以AlphaGo為例,闡述監(jiān)督學習和
強化學習的基本原理
理解強化學習與監(jiān)督學習的基本原理后,我們聚焦DeepSeek R1的逆向創(chuàng)新路徑的探討。OpenAI提出的近端策略優(yōu)化(PPO)算法基于Actor-Critic雙模型架構,其設計核心包含兩個關鍵技術:首先,通過策略更新裁剪機制約束策略模型的梯度幅度,有效控制策略迭代的穩(wěn)定性邊界;其次,運用廣義優(yōu)勢估計(GAE)對時序差分誤差進行指數(shù)衰減加權,實現(xiàn)偏差-方差權衡下的優(yōu)勢函數(shù)精準估計。相較之下,DeepSeek研發(fā)的群體相對策略優(yōu)化(GRPO)實現(xiàn)了三大范式突破:其一,摒棄價值函數(shù)估計模塊,通過策略網(wǎng)絡直接生成多組候選動作序列;其二,創(chuàng)新性地構建群體相對優(yōu)勢評估體系,利用同批次采樣輸出的獎勵分布統(tǒng)計量(均值μ與標準差σ)進行動態(tài)標準化處理;其三,采用隱式優(yōu)勢歸一化技術,將傳統(tǒng)基于絕對值的優(yōu)勢評估轉化為群體內相對排序評估,此舉不僅將計算復雜度降低至線性級別,更通過分布感知機制增強了策略更新的魯棒性。表1從10個關鍵維度對PPO和GRPO進行了詳細對比總結。
從技術演進脈絡分析,GRPO的創(chuàng)新性體現(xiàn)為基于PPO范式的架構重構而非理論顛覆,其技術路徑的連續(xù)性表現(xiàn)在兩個維度:其一,繼承策略梯度法的參數(shù)空間優(yōu)化內核,保留策略模型與環(huán)境交互的馬爾可夫決策過程建??蚣?;其二,將PPO的顯式優(yōu)勢估計-策略更新分離機制,轉化為基于群體采樣的隱式策略評估-改進循環(huán),通過算法組件重組實現(xiàn)計算流重構。盡管該方案因去除價值模型引發(fā)"策略退化風險"的技術爭議,但DeepSeek通過三階技術補償機制完成創(chuàng)新閉環(huán):①采用動態(tài)過程監(jiān)督獎勵塑形,在生成長文本時實施多粒度即時反饋;②構建隱式課程學習機制,通過組內輸出質量分布自動調節(jié)探索-利用平衡;③設計計算最優(yōu)性驅動的策略熵約束,在降低方差的同時維持策略多樣性。這種逆向工程創(chuàng)新思維本質上是以大語言模型訓練的現(xiàn)實算力約束為先驗條件,通過結構簡化→計算加速→數(shù)據(jù)通量提升→策略隱性增強的鏈式反應,在數(shù)學定理證明等復雜推理任務中實現(xiàn)百倍級訓練速度提升,驗證了"參數(shù)效率優(yōu)先于架構完備性"的技術假設。
總結:
在生成式AI技術范式重構期,DeepSeek提出的逆向漸進式創(chuàng)新架構開創(chuàng)了系統(tǒng)級優(yōu)化的新范式:其核心在于以終端場景需求為錨點,逆向重構技術路徑實現(xiàn)效率躍遷。典型技術突破包括——基于低秩緩存重構的多頭潛在注意力(MLA)機制,將KV緩存顯存消耗降低76%的同時維持多粒度語義建模能力;采用動態(tài)子模型激活的混合專家架構(MoE),使175B參數(shù)模型推理成本降至1/8。這種架構革新不僅驅動DeepSeek V3/R1實現(xiàn)性能-能效雙突破,更引發(fā)三重產(chǎn)業(yè)變革:催化垂直領域AI原生應用爆發(fā),重構大模型開源與閉源的價值平衡點,倒逼GPU算力市場形成彈性供給體系,最終推動生成式AI從實驗室創(chuàng)新向量產(chǎn)化部署的歷史性跨越。
安擎作為國內專業(yè)的AI服務器及定制化方案提供商,從基礎技術出發(fā),探索未來算力發(fā)展趨勢,后續(xù)安擎將陸續(xù)推出DeepSeek時代的生成式人工智能系統(tǒng)架構關鍵技術及解決參考方案分享,內容涉及場景需求定義系統(tǒng)架構、 基于OCS(光電路開關)的GenAI fabric 開放互聯(lián)、系統(tǒng) RAS (可靠性、可用性和可維護性) 和智能調試及根因定位、先進液冷、可持續(xù)和可擴展碳優(yōu)化計算、系統(tǒng)安全,以及電力算力資源調度優(yōu)化等。歡迎您的及時關注。