阿里云開源全模態(tài)模型Qwen2.5-Omni-7B,手機上就能部署

3月27日消息,阿里云宣布通義千問Qwen2.5-Omni-7B正式開源。

Qwen2.5-Omni支持文本、圖像、音頻和視頻等多種輸入形式,并實時生成文本與自然語音合成輸出。

阿里云介紹,在權威的多模態(tài)融合任務OmniBench等測評中,Qwen2.5-Omni全維度遠超Google的Gemini-1.5-Pro等同類模型。在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Audio或VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。

目前,Qwen2.5-Omni已在魔搭社區(qū)和Hugging Face 同步開源,開發(fā)者和企業(yè)可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕松部署運行。另外,用戶也可在Qwen Chat上直接體驗。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2025-03-27
阿里云開源全模態(tài)模型Qwen2.5-Omni-7B,手機上就能部署
阿里云宣布通義千問Qwen2.5-Omni-7B正式開源。Qwen2.5-Omni支持文本、圖像、音頻和視頻等多種輸入形式,并實時生成文本與自然語音合成輸出。

長按掃碼 閱讀全文