小编在这里为大家带来看国产一区二区视频_国产午夜人做人免费视频_成人h动漫精品一区二区三无码_无码a在线观看精品动态图_白嫩极品女粉嫩喷水视频的_欧美在线Vs免费一级片_久久成人午夜电影院_鲁丝片无码AV国庆假期大战少妇_亚洲精品字幕中文_亚州男人的天堂

星座的秘密:貨運(yùn)全國-DeepSeek V3爆火背后:“AI界拼多多”能否復(fù)制?

星座的秘密:貨運(yùn)全國-DeepSeek V3爆火背后:“AI界拼多多”能否復(fù)制?

admin 2025-01-07 商務(wù)合作 1 次瀏覽 0個評論

界面新聞記者 | 伍洋宇 李彪

界面新聞編輯 | 文姝琪

2024年底,DeepSeek(深度求索)再次憑借模型性能在行業(yè)中掀起一個小高潮。

這家獨(dú)立于大模型“六小虎”格局之外、不容行業(yè)所忽視的公司,發(fā)布了新一代MoE模型DeepSeek-V3首個版本并同步開源。V3擁有6710億參數(shù),其中激活參數(shù)為370億,在14.8萬億token上進(jìn)行了預(yù)訓(xùn)練。?

DeepSeek公開披露的信息來看,在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022,在代碼能力上同樣稍好于后者,而在數(shù)學(xué)能力上,V3已明顯領(lǐng)先其他開閉源模型,包括Qwen2.5 72B-Inst,LIama3.1 405B-Inst,GPT-4o 0513。

這已經(jīng)是一個足夠好的開源模型,但真正讓其受到大量關(guān)注的,是DeepSeek在技術(shù)論文中表示,DeepSeek-V3模型總訓(xùn)練成本為557.6萬美元,完整訓(xùn)練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓(xùn)練所需十分之一。這讓它在海內(nèi)外再度爆火。

事實(shí)上,大模型在2024年第一場API價格戰(zhàn)正是由DeepSeek開啟。彼時,其“MoE架構(gòu)+MLA(Multi-head Latent Attention)技術(shù)”在降低大模型使用成本上發(fā)揮了重要作用。如今看來,這項(xiàng)創(chuàng)新在DeepSeek手中完成了穩(wěn)定延續(xù)。

星座的秘密:貨運(yùn)全國-DeepSeek V3爆火背后:“AI界拼多多”能否復(fù)制?

至此,同行業(yè)的大模型廠商更需審慎對待這家作風(fēng)低調(diào)、輸出穩(wěn)定的公司,不知何時,它就會發(fā)起一場商業(yè)奇襲。

“AI拼多多”模式能否復(fù)制

根據(jù)海外調(diào)研機(jī)構(gòu)SemiAnalysis的數(shù)據(jù),OpenAI GPT-4訓(xùn)練成本高達(dá)6300萬美元,而DeepSeek-V3只有前者十分之一不到。讓行業(yè)首先開始思考這種低成本模式是否可復(fù)制。

自從英偉達(dá)高端GPU顯卡在中國大陸遭禁后,算力不足始終是擺在國內(nèi)AI公司面前的一大難題。

相比于國外微軟、Meta、特斯拉等科技巨頭動輒購入10萬張英偉達(dá)顯卡搭建算力中心訓(xùn)練AI模型,國內(nèi)擁有1萬張以上顯卡的公司屈指可數(shù)。DeepSeek背后的開發(fā)公司幻方就是其中之一,2023年在接受36氪專訪時,幻方創(chuàng)始人梁文鋒稱“公司已囤有1萬張英偉達(dá)A100顯卡”。?

而DeepSeek-V3此次的特別之處在于僅用少量卡就完成了模型訓(xùn)練。?

據(jù)官方論文介紹,DeepSeek-V3訓(xùn)練使用了2048張英偉達(dá)H800 GPU(注:H800GPU為H100 GPU被禁后面向中國大陸推出的特供版,性能約為其一半),這些GPU通過英偉達(dá)高速互聯(lián)網(wǎng)絡(luò)NVLink和InfiniBand連接搭建成AI算力集群。

作為性能對標(biāo)模型,Meta旗下的開源模型Llama-3.1(模型參數(shù)量與訓(xùn)練數(shù)據(jù)大致相當(dāng))則動用了超過16000張英偉達(dá)H100GPU,業(yè)內(nèi)估計(jì)訓(xùn)練成本高達(dá)數(shù)億美元。?

Meta AI科學(xué)家田淵棟在X(原推特)平臺上盛贊DeepSeek V3的低成本訓(xùn)練方法是“黑科技”。特斯拉前人工智能和自動駕駛視覺總監(jiān)、著名AI研究學(xué)者Andrej Karpathy轉(zhuǎn)發(fā)了DeepSeek的論文,并評價說“如果DeepSeek V3能夠通過各項(xiàng)評估,就證明了在資源有限的情況下,開發(fā)出性能強(qiáng)大的大語言模型是有可能的”。

目前,降低AI模型開發(fā)成本已經(jīng)是最重要的行業(yè)趨勢之一。過去一年,OpenAI仍然未發(fā)布行業(yè)期待已久的下一代模型GPT-5,而是發(fā)布了GPT-4o、4o mini等一系列低成本的輕量化模型。山姆·奧特曼(Sam?Altman)也表示,部署和維護(hù)高級AI模型造成了OpenAI的運(yùn)營成本不斷上升,無論是出于公司持續(xù)運(yùn)營的需要,還是實(shí)現(xiàn)AI人人可用的目標(biāo),都需要進(jìn)一步降低成本。

而對于國內(nèi)來說,先進(jìn)算力受限國內(nèi)AI公司必須直面的現(xiàn)實(shí)。

從2023年開始,國內(nèi)掀起了智算中心的基建熱潮。但由于當(dāng)前國產(chǎn)GPU在單卡性能不足,與英偉達(dá)產(chǎn)品相比至少存在1至2代的差距,國內(nèi)建設(shè)智算中心時需要通過堆更多的GPU來實(shí)現(xiàn)所需的算力,這不僅加大了建設(shè)難度,又進(jìn)一步拉高了成本。一位參與過國產(chǎn)智算中心建設(shè)的AI公司負(fù)責(zé)人曾告訴記者,目前真正有能力建設(shè)萬卡智算中心的廠商寥寥無幾,國內(nèi)算力建設(shè)的首要目標(biāo)仍然增加供給,保障“能用”。?

如何在算力受限的情況下降低模型成本,DeepSeek的“AI拼多多”模式給行業(yè)提供了一種可能。

根據(jù)DeepSeek開發(fā)團(tuán)隊(duì)介紹,V3模型采用了模型壓縮、專家并行訓(xùn)練、FP8混合精度訓(xùn)練等一系列創(chuàng)新技術(shù)降低成本。這些技術(shù)對于行業(yè)探索一條低成本的訓(xùn)練模式具有借鑒意義,但要復(fù)制并不容易。

國內(nèi)一家AI芯片公司創(chuàng)始人告訴記者,DeepSeek這次用到的FP8訓(xùn)練技術(shù)是一個亮點(diǎn)。FP8是一種使用8位浮點(diǎn)數(shù)表示的格式,相比于傳統(tǒng)的16位(FP16)和32位(FP32)浮點(diǎn)數(shù),F(xiàn)P8是一種新興的低精度訓(xùn)練方法,通過減少數(shù)據(jù)表示所需的位數(shù)。顯著降低了內(nèi)存占用和計(jì)算需求。目前除了DeepSeek,國內(nèi)公司如零一萬物,國外的谷歌、Inflection AI都已將這種技術(shù)引入模型訓(xùn)練與推理中。

上述芯片公司創(chuàng)始人稱,引入FP8后,也有可能導(dǎo)致模型計(jì)算導(dǎo)致在某些情況下精度不足,造成性能不穩(wěn)定,需要開發(fā)團(tuán)隊(duì)去進(jìn)一步調(diào)優(yōu)。“FP8接下來很有希望成為一種行業(yè)趨勢,會有更多的算力芯片廠商提供原生的FP8算力”。

另一位GPU芯片公司CEO認(rèn)為,DeepSeek V3作為DeepSeek第三代模型,模型開發(fā)本身涉及大量的計(jì)算資源和數(shù)據(jù)支持,而幻方能夠?yàn)槠鋬渖先f張英偉達(dá)顯卡用于算力基建,這對許多中小型團(tuán)隊(duì)或公司來說都是一個障礙。

但在他看來,最核心、也最難復(fù)制的是人才儲備。DeepSeek核心架構(gòu)用到的技術(shù)都具有相當(dāng)高的創(chuàng)新門檻,前期開發(fā)和后期的調(diào)優(yōu)升級都需要人才積累。

DeepSeek在人才儲備上也獨(dú)具特點(diǎn)。據(jù)創(chuàng)始人梁文峰此前接受采訪時介紹,DeepSeek V2模型的開發(fā)團(tuán)隊(duì)沒有海外回來的人,都是一批本土的“Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,以及些畢業(yè)才幾年的年輕人”,小米近期被報(bào)道以千萬年薪招聘DeepSeek研究員、V2模型的開發(fā)團(tuán)隊(duì)成員羅福莉直接證明了這些年輕人才的價值。

梁文峰稱,頂尖人才在中國是被低估的,而正因?yàn)镈eepSeek“做最難的創(chuàng)新”,創(chuàng)新對于頂級人才具有特殊的吸引力。

技術(shù)圍墻背后的商業(yè)想象力

總體而言,在算力基礎(chǔ)和訓(xùn)練技巧之外,DeepSeek-V3在技術(shù)上的核心亮點(diǎn)仍然是高效的架構(gòu)設(shè)計(jì),也就是在V2身上便得到驗(yàn)證的MoE+MLA。

DeepSeekMoE采用了更細(xì)粒度的專家分配和共享專家機(jī)制,每個MoE層包含1個共享專家和256個路由專家,以確保計(jì)算的高效;MLA通過低秩壓縮技術(shù)減少了推理時的Key-Value緩存,提高了推理效率。

與此同時,DeepSeek-V3首次引入了無輔助損失的負(fù)載均衡策略。傳統(tǒng)方法中,強(qiáng)制負(fù)載均衡將導(dǎo)致模型性能下降,但通過為每個專家引入偏置項(xiàng),動態(tài)調(diào)整路由決策,可以確保專家負(fù)載均衡。

實(shí)際上,一個大模型的架構(gòu)設(shè)計(jì)與其想要達(dá)成的目標(biāo)高度相關(guān),因此并不能泛泛而談其他模型廠商如何跟進(jìn)這套技術(shù)策略。

但如果按照同等目標(biāo)而言,一名大模型行業(yè)從業(yè)者對界面新聞記者表示,“MoE+MLA”雖然難,但是能夠復(fù)現(xiàn),在V3中,更難的是無輔助損失的負(fù)載均衡策略,因?yàn)樗枰砸粋€訓(xùn)練得足夠好的MoE模型為前提。“這個比較看模型訓(xùn)練的能力,就算DeepSeek的人手把手教也不一定能搞定。”

面對DeepSeek-V3的爆火,也有觀點(diǎn)提出應(yīng)該冷靜看待,不要過度神話。

一名AI大模型投資人表示,DeepSeek-V3的確是現(xiàn)在看來最好的開源模型。尤其在國內(nèi),它最直接可對標(biāo)的是通義千問模型系列,從技術(shù)實(shí)現(xiàn)來看,其更大總參數(shù)對概念的建模更精準(zhǔn),更小的激活量又讓推理成本更低。?

但在GPT-4發(fā)布近兩年后,整個開源模型框架及算法系統(tǒng)也在同步迭代,他認(rèn)為DeepSeek-V3所達(dá)成的效果可以視為順其自然的事情。?

相比而言,更值得思考的是DeepSeek的商業(yè)觸角會向哪片領(lǐng)域進(jìn)一步延伸。

目前,DeepSeek仍以開源模型API接口為主服務(wù)開發(fā)者和企業(yè),在更具體的ToB(企業(yè)端)和ToC(用戶端)應(yīng)用場景,它還沒有明確動作,但在部分層面也有跡可循。?

據(jù)記者了解,在第三方招聘平臺上,幻化量方在眾多系統(tǒng)及算法研發(fā)崗位中釋放出了“DeepSeek-客戶端研發(fā)”、“DeepSeek C端產(chǎn)品的視覺引導(dǎo)者”,以及面向Web端及移動端AI產(chǎn)品的“UI視覺設(shè)計(jì)師”等。?

其中,客戶端研發(fā)崗要求負(fù)責(zé)DeepSeek iOS及安卓開發(fā)工作。而視覺產(chǎn)品崗在“期望特質(zhì)”中描述到,“能在某個大主題的背景下細(xì)化創(chuàng)作,比如我們的App可以是交互偏向的人文關(guān)懷、或者去突出科技感、也可能會走偏向辦公效率的方向。”

這意味著,DeepSeek或許已經(jīng)在籌備自己的C端產(chǎn)品,并且有明確的應(yīng)用方向。

從模型層面來看,DeepSeek-V3作為開源模型,在數(shù)學(xué)和代碼兩項(xiàng)能力上已經(jīng)非常突出,在補(bǔ)齊產(chǎn)品端能力后,或?qū)⒃谙嚓P(guān)領(lǐng)域迅速形成自己的獨(dú)特優(yōu)勢。另外,公司對于AGI(通用人工智能)目標(biāo)的追求明確,團(tuán)隊(duì)必定會不斷拉升基座模型性能。

也就是說,盡管還看不清DeepSeek的最終抉擇,但它自身具備的模型實(shí)力和成本優(yōu)勢,無論切入哪一個領(lǐng)域都可能對同賽道公司形成壓力。

“從根本上來說,DeepSeek對沒有找到自己核心場景的大模型公司都是一個巨大的威脅?!鼻笆鐾顿Y人表示。

轉(zhuǎn)載請注明來自山東跨省礦山檢測有限公司-澳彩精選參考資料,本文標(biāo)題:《星座的秘密:貨運(yùn)全國-DeepSeek V3爆火背后:“AI界拼多多”能否復(fù)制?》

每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

評論列表 (暫無評論,1人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
網(wǎng)站統(tǒng)計(jì)代碼