1999 年騰訊發(fā)布 QQ 時,吳祖榕成為了第一批用戶。左小祥那會還在上高中,兩年后,他也成為了擁有 QQ 號的“弄潮鵝”。
同一年,劉杉在美國讀博士,那時,讓她暢想二十年后的生活未免有點太早。
2005年,騰訊 QQ 的同時在線人數(shù)首次突破了 1000 萬,僅用了四年時間就達到了 100 倍的增長。在QQ 飛速發(fā)展的這一年,吳加入了騰訊,負責QQ客戶端的開發(fā)工作。四年后,左也加入了騰訊。
那會兒,騰訊雖然有名,卻也沒有那么有名,至少劉杉在美國還沒聽過這個企業(yè)。
三條線在 2017 年匯成一點,這個“點”就是騰訊音視頻實驗室。
建團隊做標準
2016 年 11月,騰訊音視頻技術(shù)中心升級為騰訊音視頻實驗室。
吳祖榕一開始在 QQ 團隊負責 QQ 客戶端的開發(fā)工作,后來帶團隊,成為 QQ 客戶端團隊的技術(shù)總監(jiān)。2015年,他負責商業(yè)化部門的研發(fā)團隊管理工作。到了2017年6月,吳輪值到了音視頻實驗室。
吳到了實驗室后,覺得視頻標準很重要,騰訊音視頻實驗室也應(yīng)參與打造音視頻技術(shù)標準,所以,騰訊音視頻實驗室開始全球范圍內(nèi)尋找視頻標準的領(lǐng)軍人物。
他們把目光投向了曾在多家國際知名企業(yè)負責多媒體技術(shù)研發(fā)的專家劉杉。
劉杉在美二十年,多次擔任音視頻國際標準組織的主席,她是 200 多個美國和全球?qū)@暾埖陌l(fā)明人,其中許多發(fā)明已被授權(quán)并成為標準基本專利或被內(nèi)置于多款通信和多媒體產(chǎn)品中。她還是已定稿國際標準Rec. ITU-T H.265 v4 | ISO/IEC 23008-2:2017和正在制定的下一代國際標準VVC的聯(lián)席主編。
用一句話概括就是,劉杉在全球音視頻領(lǐng)域耕耘已久,經(jīng)驗豐富,成績斐然。
當騰訊向劉杉發(fā)出邀請時,她是遲疑的。
2017 年,騰訊在全球 500 強公司中排名第 478 位,相較于劉的幾個老東家——半導(dǎo)體全球頂尖 IC 設(shè)計公司聯(lián)發(fā)科、娛樂商業(yè)巨頭索尼和排名第 83 位的華為,好像是這么個意思。
再者,相較于高通、三星、愛立信、諾基亞、LG、華為、聯(lián)發(fā)科等公司在音視頻領(lǐng)域的研究積累,騰訊可以說是真的晚起步了,劉杉遲疑也情有可原。
但騰訊對于音視頻實驗室是有長久規(guī)劃的。
騰訊音視頻實驗室是騰訊 SNG 布局 AI 的“三駕馬車”之一,騰訊的高級執(zhí)行副總裁湯道生掌管這里。劉杉一路談到湯道生,湯對劉說:“第一年沒什么要求,只要先把團隊組建起來就可以了,但騰訊的目標是出海和國際化,音視頻領(lǐng)域一定要做成國際標準。”
要把“孩子”一把拉扯大,騰訊對“孩子”期望還挺高,劉杉覺得,這事可以搞。
2017 年 11 月,劉杉加入騰訊音視頻實驗室的第一個任務(wù)是把視頻標準團隊組建起來,代表騰訊去標準會上提交提案。短短兩個月時間內(nèi),新人騰訊擠在一群老牌標準團隊里,向 MPEG 122 會議提交了十個高質(zhì)量的提案。
2018 年 7 月盧布爾雅納的標準會議上,騰訊音視頻實驗室的多項技術(shù)被 VVC 標準采納。在 2018 年 10 月澳門的標準會議上,在多項技術(shù)提案被 VVC 標準采納之余,王者榮耀視頻片段被納入 VVC標準制定測試集,確保騰訊重要應(yīng)用場景將受益于新一代視頻壓縮標準。
騰訊音視頻實驗室還在這一年內(nèi)聚集了其他標準領(lǐng)域的大牛。湯道生原本以為在一年時間里,音視頻實驗室頂多把路修到“二環(huán)”,沒想到一下到了“五環(huán)”。
一直擔任自適應(yīng)比特率流媒體技術(shù) DASH 工業(yè)論壇主席和董事長的伊拉齊·索達加于 2018 年年底加入騰訊音視頻實驗室,擔任首席研究員。在加入騰訊之前,他曾在微軟與各種研究和產(chǎn)品小組合作,參與多媒體技術(shù)的發(fā)展和標準化方面的研究和落地, 也曾負責 Windows 的多媒體交付策略、產(chǎn)品對齊和標準化項目。同時,他也是首個基于 HTTP 的自適應(yīng)比特率串流解決方案 MPEG CMAF 小組的聯(lián)合主席。
Vidyo公司知識產(chǎn)權(quán)與標準的副總裁斯蒂芬·溫格于 2018 年年初加入騰訊音視頻實驗室,擔任知識產(chǎn)權(quán)與標準的高級總監(jiān)。在加入騰訊之前,他曾參與新多媒體技術(shù)的標準化組織,尤其是 IETF、ITU-T 和 MPEG。
緊跟國外標準,國內(nèi)標準建立上也要有一席之地。
音視頻編碼標準(AVS)是我國具備自主知識產(chǎn)權(quán)的第二代信源編碼標準,騰訊音視頻實驗室的 TPG格式已被 AVS2 標準接收,并在參與 AVS3 的標準制定。
至此,你可能發(fā)現(xiàn)了騰訊音視頻實驗室的打法:針對特定標準領(lǐng)域招募大牛,點對點突破。
從與QQ共舞到業(yè)務(wù)變遷
技術(shù)骨干左小祥則經(jīng)歷了騰訊音視頻實驗室的幾個重要節(jié)點。左從 2010 年開始負責 PC QQ 基礎(chǔ)能力開發(fā),2015 年以后,負責手機 QQ、macQQ 音視頻基礎(chǔ)功能的開發(fā)。
吳祖榕和左小祥告訴雷鋒網(wǎng),在主要服務(wù)QQ 的業(yè)務(wù)上,騰訊音視頻實驗室構(gòu)建了新一代SPEAR音視頻通信引擎AVC,承載億級 QQ 用戶通信,集成音視頻通信SDK,構(gòu)建豐富的一對一、一對多、多對多的實時音視頻通話場景。為了滿足越來越年輕化的用戶需求,音視頻中心提出了低碼率下實時視頻的美顏功能,將美顏從圖片處理提升到視頻處理的全新應(yīng)用場景,還推出了語音變聲功能。
移動化浪潮來臨時,音視頻技術(shù)也面臨著如何在移動網(wǎng)絡(luò)下解決各種聲音的采集播放問題。最大的挑戰(zhàn)是,人是移動的,這代表著網(wǎng)絡(luò)是波動的,在網(wǎng)絡(luò)波動的過程中怎么保證低延遲、高清晰,變得比原來更有挑戰(zhàn)。
網(wǎng)絡(luò)層面要求工程師們做更多網(wǎng)絡(luò)抖動、丟包的測試,算法還得自適應(yīng)不同網(wǎng)絡(luò)。到底當前鏈路上可用帶寬有多少?延遲是多少?在實時音視頻領(lǐng)域,解決這些問題的一個通用方案是,建立一套模型,估算結(jié)果反饋給編碼器,告訴應(yīng)用層策略發(fā)送多少冗余信息或者在何時做更多重傳。
其中,最核心的技術(shù)在于對帶寬的估計,如何更準確、實時地發(fā)現(xiàn)當前帶寬發(fā)生的波動,到底是有人跟你搶,還是使用者自身在移動?騰訊音視頻實驗室花了很多時間打造云端控制的流控。
另一個挑戰(zhàn)是,設(shè)備更加多樣性,人們的使用場景不再是筆記本電腦以及一個攝像頭、麥克風。每個安卓廠商、手機廠商采集的播放延遲都不一樣,需要做大量適配,多了很多工作量。
移動化解決完后,視頻應(yīng)用面臨了爆發(fā),包括點播業(yè)和直播業(yè),許多競爭對手涌了進來。
“直播對帶寬要求很高,主播跟觀眾互動的實時性也要很好。友商把我們的客戶教育成了音視頻專家。有一個客戶在南美,他會很直接地告訴我們,現(xiàn)在房間秒開、AGC聲音增量或噪聲回聲消除剪切得不夠好,會用非常專業(yè)的音視頻指標跟你講,整個行業(yè)在被競爭對手推著往前走。”吳祖榕說。
吳祖榕之前碰到一個客戶,他的 APP 里同時用了騰訊和其友商的音視頻 SDK,今天用騰訊的 SDK 看用戶的反饋是多少,明天用友商的 SDK 看用戶反饋是多少,直接從用戶的反饋數(shù)量判斷誰的質(zhì)量好。
吳不怕比較:“在服務(wù)產(chǎn)品過程中,大家也會不斷定一些關(guān)鍵指標、核心指標,然后找原因,找問題。找完原因、問題解決完之后,我們驗證穩(wěn)定了也會立刻反饋到 To B 服務(wù)的SDK質(zhì)量中,是一個蠻正向的循環(huán)。”
云時代下,改變未來
2018 年 9 月 30 日,騰訊正式宣布啟動新一輪整體戰(zhàn)略升級,并對架構(gòu)進行大調(diào)整,湯道生成了主管騰訊云與智慧產(chǎn)業(yè)事業(yè)群 CSIG 的老板,騰訊音視頻實驗室歸了 CSIG ,由劉杉和吳祖榕擔任實驗室聯(lián)合負責人。
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,因為 QQ 在國內(nèi)市場比較飽和,除了平穩(wěn)支撐 QQ 的業(yè)務(wù),騰訊音視頻實驗室承擔了為騰訊云的出海提供服務(wù)的重任,并投入更多人力在騰訊云還有 to B 業(yè)務(wù)上。
QQ 的音視頻通話能力已經(jīng)獨立作為云上的解決方案,這個解決方案也同步向企業(yè)售賣,全民 K 歌、QQ 空間直播、NOW 直播、騰訊教育內(nèi)部直播體系也由騰訊音視頻實驗室支撐,視頻處理平臺目前已經(jīng)上線微視。2019 年,騰訊音視頻實驗室將主要在自動駕駛車聯(lián)地圖、會議、在線教育等領(lǐng)域推新產(chǎn)品。
劉杉介紹:“實驗室自研的 GME 游戲多媒體引擎已經(jīng)落地在游戲場景,目前正在開拓海外市場。實驗室的技術(shù)輸出除了支持公司業(yè)務(wù)比如游戲、微視、云等,同時也直接對接外部客戶。比如,我們有另一款產(chǎn)品叫投屏,是和會議相關(guān)的產(chǎn)品,開會的時候手機和筆記本等終端的內(nèi)容都可以直接無線投到大屏幕上,本地和遠程會議投屏都支持,這款產(chǎn)品已經(jīng)覆蓋整個騰訊辦公設(shè)施并且已經(jīng)開始對外銷售。2019 年會進一步上量,還有我們的基于深度學(xué)習(xí)的視頻處理平臺,目前已經(jīng)上線微視,2019 年會進一步拓展對內(nèi)對外業(yè)務(wù)。”
她指的新領(lǐng)域包括騰訊音視頻實驗室在泛多媒體技術(shù)研發(fā),包含點云、VR360和沉浸式多媒體體驗,以及多媒體和神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的結(jié)合等。
吳祖榕看好三項技術(shù)對音視頻領(lǐng)域的挑戰(zhàn)。
一是隨著基礎(chǔ)設(shè)施的提升以及 5G 的布局,市場要求更高碼率、高清、更高分辨率的視頻出現(xiàn),對視頻的質(zhì)量要求更高,高質(zhì)量視頻的傳輸和分發(fā)是關(guān)鍵點。二是在實時音視頻通信領(lǐng)域上,隨著 AI 技術(shù)的進步,過去很多很難解決的問題在今天有了機會。比如,大部分手機只有一個麥克風,過去很難實現(xiàn)單通道下的語音增強技術(shù),要么就要使用很多麥克風才能做好降噪。隨著深度學(xué)習(xí)的引入,這些技術(shù)有了新機會。三是如何讓網(wǎng)絡(luò)更有效地把人眼關(guān)注的區(qū)域給更多碼率做編碼,讓網(wǎng)絡(luò)和超分辨率進行更多適配。
“人的感官需求可能會隨著基礎(chǔ)設(shè)施的提升不斷提升,東京奧運會甚至用 8K 視頻做直播,這讓我感覺到,我們已經(jīng)從以前的‘聽得清、看得清’到今天的‘聽得真、看得真’,這是技術(shù)最大的不同。”吳祖榕說。
關(guān)于音視頻技術(shù)所能造就的未來,吳沒有太多想象。他是活在當下的人,感受著自己目前鉆研的這些產(chǎn)品技術(shù)帶來的沖擊。
有一天,吳祖榕在蛋糕店看到老板娘開了 NOW 直播,吳很詫異。老板娘說,這有很多粉絲,她可以使用直播技術(shù)跟粉絲介紹她的蛋糕是怎么做的。還有一次,吳去北京出差,坐上了一輛出租車,開車的大爺全程跟他介紹自己在全民 K 歌上的成就,大爺每天 5 點鐘下了班就回家跟老伴一起拿著麥克風唱歌,平時在全民 K 歌上跟朋友互動。
- Meta轉(zhuǎn)向閉源策略,中美AI發(fā)展路徑走向分化
- 三星2nm芯片曝光 與蘋果展開制程爭奪戰(zhàn)
- 微信上線反詐預(yù)警功能 覆蓋多場景實時提醒風險
- 好未來季報:智能硬件帶動營收增四成 但AI變現(xiàn)仍待觀察
- 通義Qwen3實測:數(shù)學(xué)編程提升明顯,推理能力仍有優(yōu)化空間
- 仰望U8L鼎世版預(yù)售:130萬豪華SUV新選擇
- 京東一線員工子女高考福利:獎金+快遞免費+就業(yè)優(yōu)先
- AI沖擊波:微軟報告預(yù)警40個高危職業(yè)
- AMD獨立NPU入局,PC端AI性能平民化
- B站打通Steam賬號:游戲時長可公開處刑了
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。