計算架構,行業(yè)AI競爭的下一個分水嶺

計算架構,行業(yè)AI競爭的下一個分水嶺

當DeepSeek被廣泛部署,AI競爭焦點已從“有沒有AI”轉向“AI用得好不好”

當前,相比能否用上DeepSeek,能否用得好DeepSeek成為企業(yè)更關心的話題。

通過大幅降低大模型部署成本,DeepSeek催生了千行萬業(yè)AI應用的爆發(fā)。根據國家數據局透露的數據,2024年初中國日均Token消耗量為1千億,今年3月中國日均Token消耗量已經達到10萬億級,1年時間增長了100倍。

當越來越多企業(yè)把DeepSeek等深度推理模型部署到生產環(huán)境,算法層面的差距迅速收窄,各行業(yè)AI競爭焦點從“有沒有AI”轉向“AI用得好不好”。2025年,模型優(yōu)化技術已經從模型層面算法優(yōu)化,下探到底層硬件資源的極致利用。一場關乎底層軟硬件協(xié)同效能的深水區(qū)競賽悄然啟幕。

在AI基礎設施中,連接底層硬件和上層AI框架的計算架構,成為下一階段AI落地的關鍵。深度開放的昇騰計算架構CANN,正成為撬動產業(yè)AI高效落地的新支點。

計算架構,行業(yè)AI競爭的下一個分水嶺

01 趨勢之變:AI競爭已下沉至“系統(tǒng)效能”深水區(qū)

DeepSeek模型領先的背后,是一系列模型結構優(yōu)化技術,包括MoE、動態(tài)稀疏計算、自適應參數優(yōu)化、多頭潛在注意力機制(MLA)、無輔助損失的負載均衡技術、多詞元預測訓練方法等。正是這些技術創(chuàng)新打破了AI訓練燒錢的魔咒,以GPT-4 百分之一的成本實現(xiàn)相近性能,同時進一步降低了AI應用門檻。

所有接入DeepSeek的企業(yè)都可以直接承接這些最先進的模型結構優(yōu)化技術,獲得同樣的加持。但是,想要讓這些技術的價值發(fā)揮到最大,更進一步提升推理效率,就必須依賴底層資源的系統(tǒng)性優(yōu)化。這就不得不提到計算產業(yè)的護城河——計算架構。

計算架構,行業(yè)AI競爭的下一個分水嶺

如果把AI技術棧比作一塊多層蛋糕,自下而上分別是:XPU硬件層——驅動層——計算架構層——AI框架層——AI模型層——AI應用層。計算架構起到承上啟下的關鍵作用。向下,兼容GPU、NPU、XPU等異構處理器;向上,對接主流AI框架,計算架構是發(fā)揮底層硬件計算效率、使能前沿開發(fā)的關鍵平臺。

底層的計算架構與上層的AI應用之間看似遙遠,其實計算架構是下一節(jié)點千行萬業(yè)比拼AI應用效率的關鍵。計算架構就像建筑地基,只有地基挖的夠深,才能支撐起更高更穩(wěn)的摩天大樓。

在全球計算產業(yè),有實力做計算架構、并逐步發(fā)展出生態(tài)的企業(yè)屈指可數。計算架構往往涵蓋編程語言、算子庫、編譯器等核心組件,以及圍繞這些組件的大量底層優(yōu)化技術,每一項都需要巨量的研發(fā)投入才能持續(xù)保持技術領先性。

在全球AI版圖中,昇騰早已成為不可忽視的AI創(chuàng)新力量。昇騰異構計算架構CANN(Compute Architecture for Neural Networks)就是昇騰AI的核心軟件平臺。

一方面,CANN可以將底層昇騰全系列硬件的性能發(fā)揮到極致,大幅優(yōu)化頂尖模型的性能,加速千行萬業(yè)AI落地效率。

另一方面,通過深度開放戰(zhàn)略,CANN也為深度AI開發(fā)者提供前沿創(chuàng)新的空間,聯(lián)合伙伴勇闖模型性能的無人區(qū),成為聚合AI產業(yè)創(chuàng)新的引擎。通過與全球AI產業(yè)鏈的深度嵌入,CANN深度開放戰(zhàn)略的價值還在不斷放大。

計算架構,行業(yè)AI競爭的下一個分水嶺

昇騰AI基礎軟硬件平臺

02軟硬協(xié)同+分層開放攻堅千行萬業(yè)AI落地痛點

面對千行萬業(yè)的AI應用場景,當基于上層算法優(yōu)化的模型性能摸高已經做到極致,想進一步提升推理效能,計算架構可以發(fā)揮的創(chuàng)新空間非常大。目前,昇騰CANN已經探索出一整套底層資源優(yōu)化策略和方法論,能夠大幅提升算力利用效率和模型效率,并且已經在互聯(lián)網、運營商、教育科研、制造等眾多行業(yè)得到成功驗證。

第一,針對極致性能、超低時延等場景的底層資源整體優(yōu)化

在AI應用過程中,企業(yè)對于更高性能、更低時延的需求是無止境的,尤其是擁有海量用戶、業(yè)務呈現(xiàn)高吞吐高并發(fā)的互聯(lián)網、運營商等行業(yè)。透過硬件資源三大件:計算、通信、內存,CANN能夠大幅提升底層資源優(yōu)化利用率。

在計算層面,多頭潛在注意力(MLA)的前處理階段涉及20次數據搬入搬出以及13個算子串行計算。CANN創(chuàng)新提出MLAPO融合算子技術,將眾多小算子融合成一個大算子,能夠將計算耗時從109微秒降到45微秒。該技術已經在頭部互聯(lián)網和運營商客戶落地,并帶來20%的性能提升。

在通信層面,MoE模型涉及專家間大量通信,CANN通過NPU Direct通信算法創(chuàng)新,讓通信時間消耗相比傳統(tǒng)RDMA異步通信降低90%。該技術已經幫助科大訊飛星火大模型的跨機通信時延驟降90%,中國移動的千卡集群通信效率提升50%。

在內存層面,CANN自研的多重地址映射技術,通過重組碎片內存,實現(xiàn)內存利用率提升20%。

計算架構,行業(yè)AI競爭的下一個分水嶺

第二,針對AI前沿開發(fā)領域,CANN通過分層開放,解決開發(fā)效率和適配難題

教育/科研行業(yè)是AI前沿開發(fā)的主力軍,但往往面臨開發(fā)效率低、異構資源適配難等痛點。普通開發(fā)者只需簡單調用算子庫即可滿足一般開發(fā)需求,但是更前沿更深度的開發(fā)需求,就需要計算架構不斷開源開放來實現(xiàn)。

分層開放是CANN最重要的技術策略之一。在開源了Ascend C編程語言,AOL算子加速庫、HCCL集合通信庫之后,今年CANN進一步開源GE圖引擎,開放畢昇編譯器和Runtime運行時,滿足發(fā)燒友極致開發(fā)的需求。清華大學計圖團隊基于CANN構建起了MoE專用的算子體系,率先實現(xiàn)了基于昇騰單臺服務器布局DeepSeek R1模型的突破。

此外,提供成熟的工具提升開發(fā)效率也一直是CANN迭代的重點。今年CANN新推出了CATLASS算子模板庫,提供了豐富的算子樣例。華南理工大學團隊借助CATLASS算子模板庫開發(fā)Matmul算子,開發(fā)周期從傳統(tǒng)4人周壓縮至2人周。

計算架構,行業(yè)AI競爭的下一個分水嶺

CANN分層開放

第三,針對本地化部署AI困難的傳統(tǒng)行業(yè),CANN聯(lián)合伙伴加速行業(yè)解決方案落地

對于制造、醫(yī)療等傳統(tǒng)行業(yè),DeepSeek落地仍有一定門檻。以DeepSeek一體機、垂直行業(yè)大模型等為代表的落地方案,能簡化部署流程,加速AI在傳統(tǒng)行業(yè)應用。昇騰聯(lián)合伙伴推出了豐富的DeepSeek解決方案,目前已經在500+行業(yè)客戶落地。

計算架構,行業(yè)AI競爭的下一個分水嶺

比如在家紡行業(yè),傳統(tǒng)的畫稿設計流程過長,是影響新品研發(fā)效率的瓶頸。過去,從設計師手繪、面料選擇、樣本制作、樣品拍攝,耗時20+天,還要反復修改。昇騰伙伴紡知云科技基于CANN深度開放能力和DeepSeek底層能力,研發(fā)出國內首個家紡大模型。設計師只需輸入簡單圖片和描述,家紡大模型會自動生成兼具美學價值和商業(yè)價值的樣品設計,將設計成本從數萬元降到幾十元,設計周期從20天減少到5天。

計算架構,行業(yè)AI競爭的下一個分水嶺

03生態(tài)開放聚合AI全產業(yè)鏈創(chuàng)新引擎

隨著AI技術不斷加速迭代,AI產業(yè)鏈上下游日趨龐大與復雜,決非一家或幾家科技巨頭可以覆蓋。開放的深度和廣度也正是計算架構的核心競爭力。對于CANN,深度開放既是技術策略,也是生態(tài)戰(zhàn)略。借助深度開放,CANN正逐漸成為聚合AI全產業(yè)鏈創(chuàng)新力量的引擎。

首先,與伙伴攜手打造覆蓋AI落地全生命周期的、更加開放易用AI基礎設施生態(tài)

比如,在算子開發(fā)層面,基于CANN的深度開放能力,高性能算子庫已使能30余家客戶/伙伴開發(fā)了260+核心算子。這些核心算子適配更廣泛的行業(yè)場景,進一步降低企業(yè)AI應用門檻。

在操作系統(tǒng)層面,CANN聯(lián)合伙伴打通與鴻蒙、歐拉、麒麟等五大國產系統(tǒng)的深度兼容。

在模型訓練/部署層面,CANN使能騰訊、硅基流動、無問芯穹等10余家AI基礎設施企業(yè),打造智能調度引擎、分布式訓練框架等創(chuàng)新套件,讓AI落地更高效。

其次,與伙伴聯(lián)合研發(fā),共同推進基礎模型前沿創(chuàng)新

近年來,基礎模型的性能突破與底層資源優(yōu)化,呈現(xiàn)出雙向驅動的發(fā)展趨勢。

以昇騰與科大訊飛的深度合作為例,一方面,計算架構加速了對模型性能的極致探索。比如,基于深度開放的CANN,科大訊飛率先實現(xiàn)了基于昇騰的MoE模型訓練推理的落地應用,在昇騰集群上實現(xiàn)MoE模型的大規(guī)模專家并行推理的首次規(guī)?;炞C,達成整體吞吐提升3.2倍,端到端時延降低50%。

另一方面,模型性能突破過程中也提升了底層軟硬件協(xié)同。比如科大訊飛也深入參與到了昇騰的軟件生態(tài)建設中,推動了昇騰開發(fā)工具集特性不斷豐富。

第三,持續(xù)加強與Pytorch、vLLM等全球主流AI開源生態(tài)合作

近年來,昇騰不斷加強與第三方開源生態(tài)的合作,深度嵌入全球AI開源生態(tài)。目前,vLLM已經成為最受開發(fā)者歡迎的推理引擎之一。2024年下半年,昇騰開始與vLLM開展技術和生態(tài)合作。vLLM社區(qū)新版本發(fā)布即支持昇騰,為開發(fā)者提供更多選擇。昇騰團隊還協(xié)助vLLM社區(qū)開發(fā)了硬件后端的插件化特性,降低社區(qū)對后端支持的維護成本。

結語

當模型性能突破與底層資源優(yōu)化日益融合,計算架構已經從技術幕后走到產業(yè)臺前。

從架構師腦中不斷迭代的代碼,到真實業(yè)務場景中的降本增效,CANN已經在千行萬業(yè)的AI競速中發(fā)揮著舉足輕重的價值。

當企業(yè)AI應用步入深水區(qū),開放創(chuàng)新的CANN,正在成為自主可控AI產業(yè)鏈的中流砥柱。

文章來源:智能進化論

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )