DeepSeek什么來頭，何以震動(dòng)全球AI圈？

2025年01月28日 11:27 來源：中國(guó)之聲

[手機(jī)看新聞]

[字號(hào) 大中小]

[打印本稿]

　　在去年12月，由國(guó)內(nèi)大模型公司“深度求索”開發(fā)的DeepSeek應(yīng)用推出的DeepSeek-V3在全球AI領(lǐng)域掀起巨大波瀾，它以極低的訓(xùn)練成本，實(shí)現(xiàn)了與GPT-4o等頂尖模型相媲美的性能。時(shí)隔不到一個(gè)月，DeepSeek又一次震動(dòng)全球AI圈。

　　1月27日，隨著DeepSeek推出新模型DeepSeek-R1，Deepseek應(yīng)用登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)App下載排行榜，在美區(qū)下載榜上超越了ChatGPT。

　　北京時(shí)間今日（28）凌晨，DeepSeek又發(fā)大招，宣布開源全新的視覺多模態(tài)模型Janus-Pro-7B。Janus的表現(xiàn)超越了傳統(tǒng)的統(tǒng)一模型，有望成為下一代統(tǒng)一多模態(tài)模型的有力競(jìng)爭(zhēng)者。

　　那么，DeepSeek究竟好在哪？為什么能以較低的成本取得“大力出奇跡”的效果？

　　DeepSeek：性能卓越，用戶體驗(yàn)佳

　　DeepSeek是一款由國(guó)內(nèi)人工智能公司研發(fā)的大型語言模型，簡(jiǎn)單來說，它就像是一個(gè)聰明又懂你的助手。它擁有強(qiáng)大的自然語言處理能力，能夠理解并回答你的問題，就像你和朋友聊天一樣自然流暢。

　　而且，DeepSeek不僅能聊天，還能幫你寫代碼、整理資料，甚至能幫你解決一些復(fù)雜的數(shù)學(xué)問題。它背后有著復(fù)雜的算法和大量的數(shù)據(jù)支持，就像是一個(gè)經(jīng)驗(yàn)豐富的偵探，能從海量信息中挖掘出你想要的東西。

　　關(guān)于類似的大模型，最廣為人知的可能是OpenAI開發(fā)的ChatGPT。從2024年9月OpenAI發(fā)布o(jì)1-preview到現(xiàn)在，僅過去不到四個(gè)月，市場(chǎng)上媲美甚至超越其性能的推理模型就已遍地開花。

　　DeepSeek之所以可以從這眾多的模型之中異軍突起，是因?yàn)樗粌H率先實(shí)現(xiàn)了媲美OpenAI-o1模型的效果，更是將推理模型的成本壓縮到了極低。

　　這次DeepSeek推出的新模型DeepSeek-R1延續(xù)了其高性價(jià)比的優(yōu)勢(shì)，僅用十分之一的成本就達(dá)到了GPT-o1級(jí)別的表現(xiàn)。

　　“從大力出奇跡到小力出奇跡”

　　DeepSeek做了什么算法改進(jìn)？

　　DeepSeek模型發(fā)布后，瞬間引發(fā)了海外AI圈眾多科技大佬的討論。

　　當(dāng)?shù)貢r(shí)間1月27日，受DeepSeek沖擊，美國(guó)人工智能主題股票遭拋售，美國(guó)芯片巨頭英偉達(dá)（NVIDIA）股價(jià)歷史性暴跌，納斯達(dá)克綜合指數(shù)大幅下跌。

　　英偉達(dá)高級(jí)研究科學(xué)家Jim Fan在個(gè)人社交平臺(tái)上公開發(fā)表推文表示，“我們正身處這樣一個(gè)歷史時(shí)刻：一家非美國(guó)公司正在延續(xù)OpenAI最初的使命——通過真正開放的前沿研究賦能全人類�？此撇缓铣＠恚钣腥さ慕Y(jié)局往往最可能成真。”

　　DeepSeek持續(xù)引發(fā)業(yè)內(nèi)震動(dòng)，臉書母公司Meta已成立專門小組展開研究和學(xué)習(xí)。

　　北京郵電大學(xué)人工智能學(xué)院人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉介紹，DeepSeek最大的優(yōu)勢(shì)在于它算法的改進(jìn)和優(yōu)化，它在算力上得到了節(jié)省，在輸入數(shù)據(jù)和語料庫(kù)上，不像以前要求那么大的數(shù)據(jù)量和大的算力，這是它的優(yōu)勢(shì)。以前如果說OpenAI是“大力出奇跡”，那么DeepSeek就是“小力也可以出奇跡”——小的算力用新的方法也可以出奇跡。

　　在南京大學(xué)人工智能學(xué)院教授俞揚(yáng)看來，DeepSeek站在前人的基礎(chǔ)上，在算法上進(jìn)行了相應(yīng)的優(yōu)化，使得訓(xùn)練成本得到大幅降低。

　　俞揚(yáng)表示，OpenAI最初在做ChatGPT的時(shí)候，使用了需要使用大量機(jī)器的強(qiáng)化學(xué)習(xí)技術(shù)，但后來的研究者們發(fā)現(xiàn)，可以針對(duì)語言模型設(shè)計(jì)出更簡(jiǎn)單的算法，這樣訓(xùn)練強(qiáng)化學(xué)習(xí)時(shí)大概可節(jié)省3/4的機(jī)器。

　　在DeepSeek的公布的技術(shù)方案中，它的強(qiáng)化學(xué)習(xí)也使用了這種簡(jiǎn)化方案，這就使得技術(shù)上有很多可改進(jìn)的地方。

　　開源是否是未來的發(fā)展方向？

　　此外，值得關(guān)注的是，DeepSeek采用了完全開源策略。

　　曾經(jīng)OpenAI創(chuàng)立的初衷，也是作為一家非營(yíng)利組織，希望“以最有可能造福全人類的方式推進(jìn)數(shù)字智能發(fā)展，而不受產(chǎn)生財(cái)務(wù)回報(bào)需求的限制”。然而，OpenAI在GPT-3發(fā)布之后限制了對(duì)模型的訪問權(quán)限，僅通過API提供服務(wù)，在GPT-4發(fā)布之后更是隱藏了其訓(xùn)練數(shù)據(jù)和模型權(quán)重、完全走向了“閉源”。

　　DeepSeek的完全開源策略不僅降低了用戶的使用門檻，還促進(jìn)了AI開發(fā)者社區(qū)的協(xié)作生態(tài)。通過開源，DeepSeek吸引了大量開發(fā)者和研究人員的關(guān)注，他們可以在GitHub等平臺(tái)上自由獲取和修改模型代碼，共同推動(dòng)AI技術(shù)的發(fā)展。

　　英偉達(dá)AI科學(xué)家Jim Fan稱贊DeepSeek是“真正開放的前沿研究，賦能所有人”。

　　國(guó)內(nèi)的某大模型創(chuàng)業(yè)企業(yè)的CEO陳里奧告訴記者，開源的好處是顯而易見的。這種開放式的創(chuàng)新模式可以激發(fā)更多的創(chuàng)意和靈感，推動(dòng)AI技術(shù)的不斷進(jìn)步。

　　陳里奧表示，大模型目前還是屬于技術(shù)早期，目前在生文、生圖上做得多一些。高精準(zhǔn)的邏輯計(jì)算、數(shù)學(xué)、編程類工作，還沒有完全在大模型層面完成。但也正是因?yàn)樘幵诩夹g(shù)早期，大家一起貢獻(xiàn)才能讓行業(yè)發(fā)展得更快。

　　當(dāng)然，開源也面臨著一些挑戰(zhàn)和問題。例如，如何保護(hù)知識(shí)產(chǎn)權(quán)、如何維護(hù)開源社區(qū)的秩序和穩(wěn)定等。

　　俞揚(yáng)表示，實(shí)際上開源只是一種商業(yè)模式，即使是開源的東西也是有版權(quán)的，所以所謂的開源和閉源之爭(zhēng)，更多是商業(yè)模式之間的問題——哪一種商業(yè)模式可能在這種特定的場(chǎng)景、特定的時(shí)代中更有效一些。

　　有人把DeepSeek的成功歸功于這是一個(gè)關(guān)于中國(guó)技術(shù)理想主義的故事，也有不少外國(guó)人將之比喻為“神秘的東方力量”。但放在整個(gè)AI大模型的產(chǎn)業(yè)里看，或許DeepSeek的成功代表了大模型的一種全新發(fā)展方向。

　　劉偉表示，現(xiàn)在大模型的發(fā)展正在發(fā)生一些變化，這個(gè)變化是關(guān)于它是否完全根據(jù)算力的大小來判定模型的好壞。現(xiàn)在DeepSeek給大家一個(gè)啟示——雖然DeepSeek算力不高，數(shù)據(jù)可能也不是很多，但通過算法的優(yōu)化可以做得更好。

　　▌本文來源：中央廣電總臺(tái)中國(guó)之聲（ID：zgzs001）

　　記者/馮爍

（責(zé)任編輯：?jiǎn)螘员?/p>