極客網·人工智能 近日,中國電信在人工智能基礎設施領域取得重大突破,率先完成了1024卡千億參數大模型的500公里分布式聯合訓練試商用。這一成果不僅為AI大模型的高效訓練提供了新的技術路徑,也為我國“東數西算”等國家戰(zhàn)略工程的落地提供了有力支持。
核心技術突破:長距離、大帶寬、低延遲的算力協同
此次試商用的核心挑戰(zhàn)在于如何實現長距離、大帶寬、低延遲的算力協同。中國電信通過自主研發(fā)的“廣域智聯無損網絡”技術,在天津武清至北京瀛海之間構建了一張長達500公里的真實光路環(huán)回網絡。這一網絡成功將千億參數大模型的分布式訓練性能提升至單數據中心效能的97%以上,幾乎達到了與本地數據中心相當的訓練效率。
據北京電信相關負責人王軼介紹,關鍵技術亮點在于采用800G廣域無損傳輸技術,將帶寬收斂比提升至32:1,有效解決了長距離傳輸中因網絡擁塞導致的丟包問題。王軼表示:“通過WSON(光波長保護)技術,我們實現了鏈路中斷的無感知切換,保障了訓練的連續(xù)性與穩(wěn)定性,切換時間僅為50毫秒,幾乎可以忽略不計。”
智算平臺賦能:提升部署效率與商用價值
除了網絡技術的突破,中國電信還利用“息壤”智算平臺,集成了跨地域算網協同、自動并行、斷點續(xù)訓等功能。這一平臺能夠實現故障秒級定位與分鐘級恢復,大幅提升商用模型的部署效率。通過這些技術手段,中國電信不僅優(yōu)化了大模型的訓練過程,還為AI基礎設施的協同發(fā)展提供了新的思路。
解決傳統(tǒng)模式痛點,推動“東數西算”落地
當前,AI大模型訓練對算力的需求呈指數級增長。然而,傳統(tǒng)單數據中心模式受限于物理空間、能源成本與地域限制,難以滿足日益增長的算力需求。中國電信此次突破的核心價值在于,通過跨地域算力整合,將分散的數據中心轉化為“虛擬超級計算機”,極大降低了訓練成本,同時為“東數西算”等國家工程提供了可落地的技術路徑。
“東數西算”工程旨在將東部地區(qū)的數據計算需求轉移到西部地區(qū),充分利用西部的能源和算力資源。中國電信的500公里聯合訓練技術為這一工程提供了重要的技術支撐,使得跨地域算力調度更加高效、穩(wěn)定。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )