四川少妇bbb凸凸凸bbb按摩,亚洲精品无码久久久久秋霞,高清情侣国语自产拍,性色av蜜臀av色欲av

DeepSeek V3和R1系統(tǒng)架構(gòu)之道:逆向漸進(jìn)式創(chuàng)新出圈

時(shí)間:2025-02-17

DeepSeek V3和R1的創(chuàng)新系統(tǒng)架構(gòu)源于對AI推理效率與成本平衡的突破性探索。V3作為混合專家(MoE)模型,總參數(shù)達(dá)671B,采用多頭潛在注意力(MLA)和無輔助損失負(fù)載均衡策略,通過FP8混合精度訓(xùn)練優(yōu)化資源消耗,預(yù)訓(xùn)練14.8萬億Token,成本僅為同類模型的1/15。R1則基于V3架構(gòu),首次通過純強(qiáng)化學(xué)習(xí)(RL)激發(fā)推理能力,無需監(jiān)督微調(diào)(SFT),結(jié)合冷啟動(dòng)數(shù)據(jù)與群體相對策略優(yōu)化(GRPO)算法,顯著提升數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)性能,并通過蒸餾技術(shù)將推理能力遷移至小模型,實(shí)現(xiàn)低成本高效部署。這一架構(gòu)革新推動(dòng)了國產(chǎn)AI算力生態(tài)發(fā)展,降低對高端GPU的依賴,加速了AGI的商業(yè)化進(jìn)程。


1739770466248341.jpg


  在這一技術(shù)革新的背景下,安擎正在積極推進(jìn)DeepSeek AI服務(wù)器產(chǎn)品的適配與調(diào)優(yōu),并與業(yè)界合作伙伴共同打造基于安擎AI服務(wù)器及集群管理的全棧解決方案。與此同時(shí),安擎資深技術(shù)專家將深入研究DeepSeek發(fā)布的核心論文,通過學(xué)習(xí)和理解其模型創(chuàng)新技術(shù),探索其創(chuàng)新思路,致力于構(gòu)建更具前沿競爭力的AI服務(wù)器系統(tǒng)及解決方案,與客戶及合作伙伴共同構(gòu)建創(chuàng)新驅(qū)動(dòng)的生成式人工智能生態(tài)。以下是DeepSeek 四篇核心論文概述及關(guān)鍵創(chuàng)新點(diǎn)梳理:


1.《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》


概述:

該論文提出了一種通過純強(qiáng)化學(xué)習(xí)(RL)自主激發(fā)大語言模型(LLM)推理能力的方法,結(jié)合群體相對策略優(yōu)化(GRPO)算法和雙階段訓(xùn)練策略(推理導(dǎo)向RL與通用對齊RL),顯著提升了模型在數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)中的性能。實(shí)驗(yàn)顯示,其Pass@1準(zhǔn)確率在AIME 2024任務(wù)中達(dá)79.8%,推理成本僅為同類模型的1/30。

創(chuàng)新點(diǎn):

· GRPO算法:替代傳統(tǒng)PPO,通過組內(nèi)獎(jiǎng)勵(lì)對比優(yōu)化策略,無需獨(dú)立價(jià)值模型,降低計(jì)算開銷28。

· 冷啟動(dòng)+多階段RL:結(jié)合少量高質(zhì)量推理鏈數(shù)據(jù)微調(diào),規(guī)范輸出格式(如標(biāo)簽),提升可讀性與任務(wù)適應(yīng)性2。

· 蒸餾技術(shù):將80萬條推理數(shù)據(jù)用于小模型微調(diào),7B模型在數(shù)學(xué)任務(wù)中超越32B基線模型,實(shí)現(xiàn)高效推理能力遷移210。



2.《DeepSeek-V3 Technical Report》


概述:

該技術(shù)報(bào)告介紹了DeepSeek-V3的混合專家(MoE)架構(gòu),包含671B總參數(shù)(每個(gè)Token激活37B),采用多頭隱注意力(MLA)和無輔助損失的負(fù)載平衡策略,預(yù)訓(xùn)練14.8萬億Token。其在MATH-500任務(wù)中準(zhǔn)確率達(dá)97.3%,訓(xùn)練成本僅為Llama 3系列的1/15,性能對標(biāo)GPT-4o。

創(chuàng)新點(diǎn):

· MLA與DeepSeekMoE:提升推理效率與經(jīng)濟(jì)性,支持128K長上下文處理69。

· 多Token預(yù)測(MTP):擴(kuò)展預(yù)測范圍至多個(gè)未來Token,增強(qiáng)數(shù)據(jù)效率和表征預(yù)規(guī)劃能力6。

· 低成本訓(xùn)練優(yōu)化:通過FP8混合精度訓(xùn)練和工程優(yōu)化,每萬億Token訓(xùn)練僅需18萬H800 GPU小時(shí),顯著降低資源消耗。


3.《DeepSeek-R1-Zero: Self-Evolving Reasoning via Pure Reinforcement Learning》



概述:

探索無需監(jiān)督微調(diào)(SFT)的純RL訓(xùn)練路徑,驗(yàn)證模型通過GRPO自主涌現(xiàn)“反思”和“多步驗(yàn)證”等復(fù)雜推理行為。初始版本在AIME任務(wù)中Pass@1從15.6%提升至71.0%,多數(shù)投票后達(dá)86.7%,但存在多語言混雜與可讀性缺陷。

創(chuàng)新點(diǎn):

· 自我進(jìn)化現(xiàn)象:模型在訓(xùn)練中自發(fā)形成糾錯(cuò)與驗(yàn)證能力,如數(shù)學(xué)解題中的“Aha時(shí)刻”。

· 極簡獎(jiǎng)勵(lì)設(shè)計(jì):僅依賴答案正確性與格式規(guī)范,避免復(fù)雜獎(jiǎng)勵(lì)模型導(dǎo)致的訓(xùn)練偏差。



4.《Efficient Knowledge Distillation for Reasoning-Centric LLMs》


概述:

提出基于動(dòng)態(tài)權(quán)重分配的跨維度知識蒸餾方法,將32B大模型的推理邏輯遷移至7B小模型,使其在AIME任務(wù)中性能提升23%,超越原32B模型。

創(chuàng)新點(diǎn):

· 思維范式遷移:解構(gòu)大模型的認(rèn)知模式,而非單純知識記憶,提升小模型的元推理能力。

· 低成本部署:7B蒸餾模型在邊緣設(shè)備實(shí)現(xiàn)高效推理,降低硬件依賴。

DeepSeek的核心論文主要圍繞強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理優(yōu)化(R1系列)和高效架構(gòu)設(shè)計(jì)(V3系列)展開。通過算法創(chuàng)新(如GRPO、MTP)和工程優(yōu)化(如FP8訓(xùn)練、蒸餾技術(shù)),DeepSeek成功實(shí)現(xiàn)了性能與成本的平衡。此外,其開源策略(例如發(fā)布1.5B至70B的蒸餾模型)進(jìn)一步推動(dòng)了AI技術(shù)的民主化,為邊緣計(jì)算和垂直領(lǐng)域應(yīng)用提供了新的范式。

DeepSeek的成功在全球范圍內(nèi)引發(fā)了廣泛關(guān)注和深入探討,特別是其系統(tǒng)架構(gòu)的創(chuàng)新成為焦點(diǎn)。在綜合國內(nèi)外技術(shù)流派的觀點(diǎn),并結(jié)合安擎在AI服務(wù)器開發(fā)設(shè)計(jì)領(lǐng)域的多年積累以及對DeepSeek 以上核心論文的深入研究后,我們將其系統(tǒng)架構(gòu)之道總結(jié)為“逆向漸進(jìn)式創(chuàng)新出圈”。鑒于讀者對AI大模型的了解程度各異,本文以淺顯易懂的語言展開,運(yùn)用類比的方式剖析關(guān)鍵技術(shù),避免過多引用復(fù)雜論文內(nèi)容,旨在讓零基礎(chǔ)讀者理解DeepSeek架構(gòu)的核心理念。對于AI大模型領(lǐng)域的資深讀者,本文可作為啟發(fā)性讀物,助力快速提煉要點(diǎn),并根據(jù)需要進(jìn)一步閱讀論文原文。我們期待本文對DeepSeek架構(gòu)的總結(jié)能與您產(chǎn)生共鳴。



DeepSeek V3混合專家系統(tǒng)(MoE)和多頭潛在注意力(MLA),漸進(jìn)式創(chuàng)新典范


  漸進(jìn)式創(chuàng)新與顛覆式創(chuàng)新是技術(shù)演進(jìn)的兩種路徑。前者通過持續(xù)優(yōu)化現(xiàn)有技術(shù)比如算法效率提升等,在現(xiàn)有市場框架內(nèi)提升性能、降低成本;后者以突破性技術(shù)重構(gòu)產(chǎn)業(yè)邏輯,通過創(chuàng)造新需求或替代舊范式開辟增量市場。二者共同推動(dòng)技術(shù)螺旋上升,漸進(jìn)創(chuàng)新維持競爭力,顛覆創(chuàng)新驅(qū)動(dòng)范式躍遷。結(jié)合國內(nèi)大模型基礎(chǔ)以及高端算力資源使用受限的現(xiàn)實(shí),基于可用的模型生態(tài)資源基礎(chǔ),Deepseek V3 系統(tǒng)架構(gòu)采取了務(wù)實(shí)且高效的漸進(jìn)式工程創(chuàng)新路徑,以MoE和MLA為例,進(jìn)一步闡述其漸進(jìn)式創(chuàng)新之道。

  MoE并非DeepSeek首創(chuàng),其最早的應(yīng)用甚至不在LLM領(lǐng)域,而是出現(xiàn)在谷歌的廣告投放和預(yù)測模型中。國外大模型研發(fā)機(jī)構(gòu)通常擁有充足算力資源,可穩(wěn)定提升模型性能,而DeepSeek團(tuán)隊(duì)面臨嚴(yán)格的算力限制,只能通過創(chuàng)新破局。MoE架構(gòu)基于“專家團(tuán)隊(duì)”分工協(xié)作,專家間的高效溝通是關(guān)鍵。DeepSeek在此基礎(chǔ)上,納入動(dòng)態(tài)子模型激活創(chuàng)新,實(shí)現(xiàn)了“讓正確的專家完成正確的合作”,從而突破資源瓶頸。以裝修房子為例,形象化的解釋MoE和傳統(tǒng)架構(gòu)核心原理以及DeepSeek MoE創(chuàng)新所在。

  如圖1所示的傳統(tǒng)AI模型,就像你請了一個(gè)全能裝修師傅,他既懂水電、木工,又會(huì)刷墻鋪地板。但無論任務(wù)是裝水管還是打柜子,他每次都得獨(dú)自完成所有步驟。比如讓他“裝個(gè)插座”,他需要先回憶水電知識,再復(fù)習(xí)木工技巧,最后還要檢查刷墻步驟。雖然他很努力,但效率低下(每項(xiàng)任務(wù)都要重復(fù)完整流程),計(jì)算資源消耗大(容易“累”),遇到復(fù)雜任務(wù)(如全屋精裝)還可能忙不過來。而MoE(混合專家模型)則完全不同。你雇了一個(gè)裝修隊(duì)長,他手下有水電專家、木工專家、油漆專家和設(shè)計(jì)師。每當(dāng)你提出需求(比如“裝個(gè)復(fù)古吊燈”),隊(duì)長會(huì)迅速判斷:“這任務(wù)80%是水電問題,20%涉及設(shè)計(jì)”,然后只派水電工和設(shè)計(jì)師來干活,其他人則繼續(xù)待命。結(jié)果是:任務(wù)完成得又快又好(計(jì)算資源精準(zhǔn)分配),團(tuán)隊(duì)還能隨時(shí)擴(kuò)容(新增專家不影響整體運(yùn)行)。



1739770635831886.jpg




  MoE大模型架構(gòu)核心就是通過動(dòng)態(tài)路由機(jī)制將輸入數(shù)據(jù)分配到不同的子網(wǎng)絡(luò)(或者說專家)進(jìn)行處理每次應(yīng)用的時(shí)候只會(huì)激活部分的專家這樣就可以提高計(jì)算的效率降低訓(xùn)練和推理的成本。DeepSeek MoE采用動(dòng)態(tài)專家激活與參數(shù)高效利用,無輔助損失負(fù)載均衡,模塊化可擴(kuò)展架構(gòu),F(xiàn)P8低精度訓(xùn)練與硬件協(xié)同優(yōu)化等創(chuàng)新技術(shù),實(shí)現(xiàn)了“讓正確的專家完成正確的合作”。這進(jìn)一步解釋了6700億參數(shù)中DeepSeek V3只需要激活370億參數(shù)的原因所在。


  MLA (Multi-Head Latent Attention) 多頭潛在注意力是DeepSeek在V3版本架構(gòu)上的創(chuàng)新,實(shí)現(xiàn)優(yōu)化顯存與計(jì)算效率,通過低秩鍵值聯(lián)合壓縮(Low-rank Key-Value Joint Compression)和潛在變量建模,減少推理時(shí)的KV緩存占用,同時(shí)保持或提升模型性能,解決了傳統(tǒng)MHA (Multi-Head Attention) 多頭注意力架構(gòu),因并行多個(gè)注意力頭捕捉輸入序列的不同關(guān)聯(lián)造成的顯存占用高、長序列計(jì)算效率低的問題。以編輯雜志為例,形象化的描述MLA和MHA的核心原理以及MLA的創(chuàng)新所在。如圖2所描述,基于MHA的普通模型:每個(gè)欄目的寫作需要所有編輯同時(shí)參與,每個(gè)人都要記住整本書的情節(jié)(存儲(chǔ)所有KV緩存),導(dǎo)致效率低下。MLA模型:主編先提煉出每個(gè)欄目的領(lǐng)域(潛在向量),然后根據(jù)當(dāng)前欄目的領(lǐng)域(如物理、航空航天)只調(diào)用相關(guān)領(lǐng)域的編輯(專家),其他人休息。這樣既節(jié)省時(shí)間,又保證內(nèi)容質(zhì)量。



1739770691960026.jpg



DeepSeek R1 基于群體相對策略優(yōu)化(GRPO)的強(qiáng)化學(xué)習(xí)架構(gòu),引領(lǐng)逆向創(chuàng)新風(fēng)向


  DeepSeek技術(shù)突破的標(biāo)志性成果當(dāng)屬其推理模型雙星——DeepSeek-R1-Zero與DeepSeek-R1,這兩大模型的問世首次構(gòu)建起與OpenAI o1推理體系的技術(shù)抗衡能力。在R1系列面世前,OpenAI的o1長期占據(jù)推理模型賽道的壟斷地位。DeepSeek實(shí)現(xiàn)"破圈傳播"的核心創(chuàng)新體現(xiàn)在雙重維度:顯性交互層面,R1模型不僅輸出最終結(jié)果,更首創(chuàng)"思維過程可視化"機(jī)制,將隱式推理鏈條轉(zhuǎn)化為可解釋的逐步推導(dǎo)路徑;技術(shù)底層層面,其突破性在于構(gòu)建了完全脫離人類反饋的強(qiáng)化學(xué)習(xí)訓(xùn)練范式。值得注意的是,R1的技術(shù)演進(jìn)始自其前身R1-Zero,研發(fā)團(tuán)隊(duì)在該原型階段實(shí)施了極具風(fēng)險(xiǎn)的技術(shù)驗(yàn)證:采用純強(qiáng)化學(xué)習(xí)框架,摒棄監(jiān)督微調(diào)環(huán)節(jié),直接探索大模型在零人工標(biāo)注數(shù)據(jù)環(huán)境下自主演化推理能力的可能性。這項(xiàng)被稱為"無監(jiān)督認(rèn)知覺醒"的實(shí)驗(yàn),最終驗(yàn)證了語言模型通過自主探索-利用機(jī)制發(fā)展出復(fù)雜推理能力的可行性。如圖3所示,DeepSeek R1研究論文中展示的自進(jìn)化強(qiáng)化學(xué)習(xí)架構(gòu)示意圖,其技術(shù)框架以"環(huán)境交互-策略內(nèi)生-獎(jiǎng)勵(lì)自洽"三重機(jī)制為理論根基,重點(diǎn)論證了無需人類反饋的強(qiáng)化學(xué)習(xí)范式作為系統(tǒng)核心支柱的可行性。



1739770737121869.jpg

圖3 自進(jìn)化強(qiáng)化學(xué)習(xí)架構(gòu)示意圖

(來自DeepSeek R1論文)



  為便于理解,簡單來說,強(qiáng)化學(xué)習(xí)是一種通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略的方法,其核心在于為機(jī)器提供大量數(shù)據(jù)和一個(gè)獎(jiǎng)勵(lì)函數(shù)(reward function)。以AlphaGo為例,它最初通過模仿人類棋譜學(xué)習(xí)下棋,但最終通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從模仿到超越人類的突破。在這一過程中,AlphaGo完全摒棄了人類棋譜,轉(zhuǎn)而通過自我對弈不斷優(yōu)化策略,最終達(dá)到超越人類頂尖水平的成就。如圖4所示,以AlphaGo為例,形象化地展示了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本原理。


1739770803286979.jpg

圖4 以AlphaGo為例,闡述監(jiān)督學(xué)習(xí)和

強(qiáng)化學(xué)習(xí)的基本原理



  理解強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的基本原理后,我們聚焦DeepSeek R1的逆向創(chuàng)新路徑的探討。OpenAI提出的近端策略優(yōu)化(PPO)算法基于Actor-Critic雙模型架構(gòu),其設(shè)計(jì)核心包含兩個(gè)關(guān)鍵技術(shù):首先,通過策略更新裁剪機(jī)制約束策略模型的梯度幅度,有效控制策略迭代的穩(wěn)定性邊界;其次,運(yùn)用廣義優(yōu)勢估計(jì)(GAE)對時(shí)序差分誤差進(jìn)行指數(shù)衰減加權(quán),實(shí)現(xiàn)偏差-方差權(quán)衡下的優(yōu)勢函數(shù)精準(zhǔn)估計(jì)。相較之下,DeepSeek研發(fā)的群體相對策略優(yōu)化(GRPO)實(shí)現(xiàn)了三大范式突破:其一,摒棄價(jià)值函數(shù)估計(jì)模塊,通過策略網(wǎng)絡(luò)直接生成多組候選動(dòng)作序列;其二,創(chuàng)新性地構(gòu)建群體相對優(yōu)勢評估體系,利用同批次采樣輸出的獎(jiǎng)勵(lì)分布統(tǒng)計(jì)量(均值μ與標(biāo)準(zhǔn)差σ)進(jìn)行動(dòng)態(tài)標(biāo)準(zhǔn)化處理;其三,采用隱式優(yōu)勢歸一化技術(shù),將傳統(tǒng)基于絕對值的優(yōu)勢評估轉(zhuǎn)化為群體內(nèi)相對排序評估,此舉不僅將計(jì)算復(fù)雜度降低至線性級別,更通過分布感知機(jī)制增強(qiáng)了策略更新的魯棒性。表1從10個(gè)關(guān)鍵維度對PPO和GRPO進(jìn)行了詳細(xì)對比總結(jié)。


1739770864585522.jpg


  從技術(shù)演進(jìn)脈絡(luò)分析,GRPO的創(chuàng)新性體現(xiàn)為基于PPO范式的架構(gòu)重構(gòu)而非理論顛覆,其技術(shù)路徑的連續(xù)性表現(xiàn)在兩個(gè)維度:其一,繼承策略梯度法的參數(shù)空間優(yōu)化內(nèi)核,保留策略模型與環(huán)境交互的馬爾可夫決策過程建模框架;其二,將PPO的顯式優(yōu)勢估計(jì)-策略更新分離機(jī)制,轉(zhuǎn)化為基于群體采樣的隱式策略評估-改進(jìn)循環(huán),通過算法組件重組實(shí)現(xiàn)計(jì)算流重構(gòu)。盡管該方案因去除價(jià)值模型引發(fā)"策略退化風(fēng)險(xiǎn)"的技術(shù)爭議,但DeepSeek通過三階技術(shù)補(bǔ)償機(jī)制完成創(chuàng)新閉環(huán):①采用動(dòng)態(tài)過程監(jiān)督獎(jiǎng)勵(lì)塑形,在生成長文本時(shí)實(shí)施多粒度即時(shí)反饋;②構(gòu)建隱式課程學(xué)習(xí)機(jī)制,通過組內(nèi)輸出質(zhì)量分布自動(dòng)調(diào)節(jié)探索-利用平衡;③設(shè)計(jì)計(jì)算最優(yōu)性驅(qū)動(dòng)的策略熵約束,在降低方差的同時(shí)維持策略多樣性。這種逆向工程創(chuàng)新思維本質(zhì)上是以大語言模型訓(xùn)練的現(xiàn)實(shí)算力約束為先驗(yàn)條件,通過結(jié)構(gòu)簡化→計(jì)算加速→數(shù)據(jù)通量提升→策略隱性增強(qiáng)的鏈?zhǔn)椒磻?yīng),在數(shù)學(xué)定理證明等復(fù)雜推理任務(wù)中實(shí)現(xiàn)百倍級訓(xùn)練速度提升,驗(yàn)證了"參數(shù)效率優(yōu)先于架構(gòu)完備性"的技術(shù)假設(shè)。



總結(jié):

  在生成式AI技術(shù)范式重構(gòu)期,DeepSeek提出的逆向漸進(jìn)式創(chuàng)新架構(gòu)開創(chuàng)了系統(tǒng)級優(yōu)化的新范式:其核心在于以終端場景需求為錨點(diǎn),逆向重構(gòu)技術(shù)路徑實(shí)現(xiàn)效率躍遷。典型技術(shù)突破包括——基于低秩緩存重構(gòu)的多頭潛在注意力(MLA)機(jī)制,將KV緩存顯存消耗降低76%的同時(shí)維持多粒度語義建模能力;采用動(dòng)態(tài)子模型激活的混合專家架構(gòu)(MoE),使175B參數(shù)模型推理成本降至1/8。這種架構(gòu)革新不僅驅(qū)動(dòng)DeepSeek V3/R1實(shí)現(xiàn)性能-能效雙突破,更引發(fā)三重產(chǎn)業(yè)變革:催化垂直領(lǐng)域AI原生應(yīng)用爆發(fā),重構(gòu)大模型開源與閉源的價(jià)值平衡點(diǎn),倒逼GPU算力市場形成彈性供給體系,最終推動(dòng)生成式AI從實(shí)驗(yàn)室創(chuàng)新向量產(chǎn)化部署的歷史性跨越。



  安擎作為國內(nèi)專業(yè)的AI服務(wù)器及定制化方案提供商,從基礎(chǔ)技術(shù)出發(fā),探索未來算力發(fā)展趨勢,后續(xù)安擎將陸續(xù)推出DeepSeek時(shí)代的生成式人工智能系統(tǒng)架構(gòu)關(guān)鍵技術(shù)及解決參考方案分享,內(nèi)容涉及場景需求定義系統(tǒng)架構(gòu)、 基于OCS(光電路開關(guān))的GenAI fabric 開放互聯(lián)、系統(tǒng) RAS (可靠性、可用性和可維護(hù)性) 和智能調(diào)試及根因定位、先進(jìn)液冷、可持續(xù)和可擴(kuò)展碳優(yōu)化計(jì)算、系統(tǒng)安全,以及電力算力資源調(diào)度優(yōu)化等。歡迎您的及時(shí)關(guān)注。


返回列表
安擎計(jì)算機(jī)信息股份有限公司
  • 服務(wù)熱線:
    售前—400-779-6858 售后—400-700-6909
  • 服務(wù)郵箱:
    support@enginetech.cn
  • 銷售郵箱:
    sales@enginetech.cn
公眾號
Copyright ? 2023 安擎計(jì)算機(jī)信息股份有限公司 版權(quán)所有 津ICP備17006743號 公網(wǎng)安備 12011402001065號
中央網(wǎng)信辦互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心:https://www.12377.cn 天津市互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心:tjjubao@tj.gov.cn https://www.qinglangtianjin.com