近日,基于“百度百舸GPU云平臺+昆侖芯P800”構建的國產(chǎn)萬卡集群,以卓越表現(xiàn),成為首家通過中國信息通信研究院《面向大規(guī)模智算服務集群的穩(wěn)定運行能力要求》測評的國產(chǎn)萬卡級別集群,且在基礎設施、集群調度、模型訓練保障等核心測評維度上,斬獲最高等級“五星級”。這不僅是對百度智能云當前技術實力的權威認可,更標志著國產(chǎn)萬卡集群在穩(wěn)定性與成熟度上達到了全新高度,為產(chǎn)業(yè)智能化提供了堅實可靠的算力底座。
硬核底座:百舸+昆侖芯,打造“多快穩(wěn)省”AI基礎設施,讓萬卡集群持續(xù)穩(wěn)跑
支撐超大規(guī)模智算集群的穩(wěn)定高效運行,是全球科技企業(yè)面臨的共同挑戰(zhàn)。百度智能云基于“百度百舸GPU云平臺+昆侖芯P800”構建的國產(chǎn)萬卡集群通過最高等級測評,正是攻克這一難題的硬核答案。
昆侖芯P800是一款真正意義上為大模型而設計的芯片,它采用了完全由昆侖芯自研的XPU-P架構,顯存遠超同類芯片。而AI芯片非常敏感,隨著集群規(guī)模擴展,故障率一定會快速增長,對于整個業(yè)務影響是指數(shù)級的。這就要求,在硬件之上,還必須有一層好的軟件管理系統(tǒng),保證集群的穩(wěn)定運行。百度百舸GPU云平臺,圍繞落地大模型全旅程的算力需求,在集群創(chuàng)建、開發(fā)實驗、模型訓練、模型推理四大方面,能為企業(yè)提供“多快穩(wěn)省”的AI基礎設施,在萬卡集群的建設中發(fā)揮了至關重要的作用。在萬卡任務上,百舸平臺可以保障有效訓練時長占比達到99.5%。在推理加速的極致優(yōu)化上,百舸平臺基于大規(guī)模PD分離式推理系統(tǒng)以及多專家并行機制,支撐千帆平臺為40萬客戶提供服務。上線以來,千帆的推理吞吐提升了20倍,推理速度提升了50%以上。這一獨特的技術優(yōu)勢也助力百度智能云成功突破頭部科技企業(yè)及中腰部客戶市場,推動GenAI IaaS業(yè)務實現(xiàn)跨越式增長。
智算未來:加快推動大模型產(chǎn)業(yè)化發(fā)展,釋放更多場景價值
今年2月,百度智能云已成功點亮昆侖芯P800萬卡集群,這也是國內(nèi)首個正式點亮的自研萬卡集群;4月,再一次成功點亮國內(nèi)首個全自研的3萬卡集群,可同時承載多個千億參數(shù)大模型的全量訓練,支持1000個客戶同時做百億參數(shù)的大模型精調。該集群建設了超大規(guī)模的高性能網(wǎng)絡,能夠保證大規(guī)模集群執(zhí)行訓練任務時的穩(wěn)定性,創(chuàng)新性地設計了顯著降低能耗的散熱方案。大模型賦能產(chǎn)業(yè)是一場長期接力,百度會堅定投入,打造更先進、高效的人工智能基礎設施,服務更多的中國企業(yè),加快推動大模型產(chǎn)業(yè)化發(fā)展,釋放更多場景價值。
未來一年,將是各種AI原生應用爆發(fā)的黃金時期。自研芯片和萬卡集群的建成帶來了強大的算力支持,同時有效提升用戶的資源整體利用率,降低大模型訓練成本,推動模型降本,將為產(chǎn)業(yè)的全面繁榮乃至整個行業(yè)的長遠發(fā)展提供了新思路和新方向。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )