原標(biāo)題:讓計(jì)算機(jī)“看懂”所有東西?視覺(jué)智能超越人類(lèi)的下一步如何進(jìn)化
機(jī)器視覺(jué)帶來(lái)什么?
讓無(wú)人駕駛“阿波龍”更安全地在路上行駛
讓醫(yī)生們多一雙不知疲倦的眼睛進(jìn)行診斷
讓“看透”世界的機(jī)器人進(jìn)入災(zāi)區(qū)挽救傷員
就像一個(gè)歌詞所寫(xiě),“讓我做你的眼睛,那樣你才看得清”。視覺(jué)智能已經(jīng)從模仿人類(lèi)到超越人類(lèi),在人類(lèi)持續(xù)進(jìn)化中,它也在不斷自我進(jìn)化中。
在上一期《AI應(yīng)用 | 從感知到認(rèn)知,人工智能的現(xiàn)在與未來(lái)》,我們介紹了人工智能的核心技術(shù),這一期我們?nèi)耘f從技術(shù)角度介紹視覺(jué)智能。
什么是視覺(jué)智能?在《百度大腦領(lǐng)導(dǎo)力白皮書(shū)》中定義為,計(jì)算機(jī)視覺(jué)是使用計(jì)算機(jī)模仿人類(lèi)視覺(jué)系統(tǒng)的科學(xué),讓計(jì)算機(jī)擁有類(lèi)似人類(lèi)提取、處理、理解和分析圖像以及圖像序列的能力。
人類(lèi)視覺(jué)是否不斷進(jìn)化?
讓計(jì)算機(jī)擁有“眼睛”,這不是簡(jiǎn)單給計(jì)算機(jī)安裝攝像頭或者傳感器就可以實(shí)現(xiàn)的,還涉及到“眼睛”的進(jìn)化。
比如人類(lèi)的視覺(jué)系統(tǒng)的硬件是由“角膜、虹膜、晶狀體及視網(wǎng)膜”構(gòu)成,是否還在繼續(xù)進(jìn)化,科學(xué)界仍有爭(zhēng)議。
如果說(shuō)停止了進(jìn)化,為什么人類(lèi)還存在藍(lán)色眼睛?藍(lán)色眼睛被認(rèn)為最早出現(xiàn)在兩萬(wàn)年前的土耳其地區(qū),在此之前,人類(lèi)的眼睛都是以棕褐色為主。
也許這是人類(lèi)視覺(jué)系統(tǒng)持續(xù)進(jìn)化的佐證之一。
正由于“眼睛”在不斷進(jìn)化中,人類(lèi)才能從“智人”發(fā)展到現(xiàn)在的人類(lèi),具有看清楚的能力(視力)、感知顏色和亮度、還有對(duì)空間頻率和時(shí)間頻率的感知。
可以說(shuō),視覺(jué)一直都是人類(lèi)最重要的感知系統(tǒng),如今在人工智能時(shí)代,這一能力也被“移植”過(guò)來(lái),努力讓計(jì)算機(jī)“看懂”所有東西。
先模仿再超越
“讓機(jī)器看到”的第一步就從模仿人類(lèi)開(kāi)始。那么在技術(shù)如何實(shí)現(xiàn)?
這起源于20世紀(jì)50年代的統(tǒng)計(jì)模式識(shí)別的計(jì)算機(jī)視覺(jué),主要基于二維技術(shù)研究,但結(jié)果遠(yuǎn)不如人類(lèi)視覺(jué)。
在如今公認(rèn)的第三階段的人工智能中,由于深度學(xué)習(xí)算法的突破,直接推動(dòng)了神經(jīng)網(wǎng)絡(luò)算法的發(fā)展。有趣的是,人類(lèi)的大腦皮層有一半的神經(jīng)元與視覺(jué)有關(guān),這與神經(jīng)網(wǎng)絡(luò)算法中的“神經(jīng)元”很類(lèi)似。一旦借鑒人類(lèi)“視覺(jué)”系統(tǒng)之后,神經(jīng)網(wǎng)絡(luò)算法直接成為計(jì)算機(jī)視覺(jué)的技術(shù)引擎,讓視覺(jué)智能應(yīng)用場(chǎng)景豐富起來(lái)。
現(xiàn)在,計(jì)算機(jī)視覺(jué)在某些方面甚至超出人類(lèi)。人眼識(shí)別的錯(cuò)誤率一般為5.1%,而在2012 ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中,計(jì)算機(jī)視覺(jué)錯(cuò)誤率已經(jīng)下降到了3.57%。
當(dāng)機(jī)器超越人類(lèi)這一拐點(diǎn)出現(xiàn),預(yù)計(jì)著視覺(jué)智能應(yīng)用的大規(guī)模爆發(fā)。
圖像理解:看得清清楚楚
根據(jù)解決的問(wèn)題,計(jì)算機(jī)視覺(jué)可分為圖像理解、三維視覺(jué)、動(dòng)態(tài)視覺(jué)三大類(lèi)。
一是圖像理解,讓計(jì)算機(jī)看懂圖像、物體的邊緣、邊界甚至是可以識(shí)別、檢測(cè)姿態(tài)和圖像文字說(shuō)明等,舉例幾個(gè)應(yīng)用場(chǎng)景。
例子1:你現(xiàn)在想要辦理消費(fèi)分期、在線貸款、在線考試等……可能會(huì)涉及到風(fēng)險(xiǎn)認(rèn)證,而主要手段就是靠人臉識(shí)別。
例子2:你在公共場(chǎng)所抽煙,那么這種違規(guī)行為都會(huì)進(jìn)入智慧安防中的機(jī)器人“法眼”中,像百度云對(duì)“抽煙”行為能有好幾種判斷,這都是建立在“看清楚”的基礎(chǔ)之上。
例子3:“不減十斤不換頭像”的你還可以進(jìn)行健康管理,在APP中識(shí)別出圖像中的菜品及熱量,還能顯示菜品信息和健康管理建議。同理,在智慧餐廳中,拍攝餐盤(pán)就能快速結(jié)算;你拿起手機(jī)掃描物體就能進(jìn)行植物識(shí)別、動(dòng)物識(shí)別,瞬間成科普專(zhuān)家。
這都是圖像理解的應(yīng)用場(chǎng)景。
三維視覺(jué):像人類(lèi)一樣具有“讀心術(shù)”
機(jī)器視覺(jué)還在不斷升級(jí)中,可以模仿人類(lèi)的眼睛以三維視覺(jué)對(duì)周?chē)h(huán)境進(jìn)行精確的定位。
我們?cè)趥商筋?lèi)作品中常看到讀心術(shù),其實(shí)這是讀微表情。百度云的“情緒識(shí)別專(zhuān)家”,透過(guò)鏡頭可以捕捉人的微表情,一不小心就可能比你更懂你的情緒。
現(xiàn)在,百度云將三維視覺(jué)應(yīng)用在人臉識(shí)別上,活體識(shí)別正確率已經(jīng)提升至99.55%。三維視覺(jué)技術(shù)可以廣泛應(yīng)用于機(jī)器人、無(wú)人駕駛、智慧工廠、虛擬/增強(qiáng)現(xiàn)實(shí)等方向。
那么,這怎么實(shí)現(xiàn)的?
主要體現(xiàn)在兩層:
硬件層面,百度云有適用于三維視覺(jué)的立體視覺(jué)AI傳感器,并且采用三維AI視覺(jué)模組,使成本大大降低。
軟件層面,開(kāi)發(fā)了從實(shí)時(shí)端上運(yùn)算到大規(guī)模云端分布式計(jì)算等多種算法。
動(dòng)態(tài)視覺(jué):“看透”不是難事
在二維、三維等靜態(tài)圖像識(shí)別技術(shù)相對(duì)成熟之后,百度開(kāi)始探索讓計(jì)算機(jī)看懂視頻的技術(shù)。
- 嫌視頻直播不夠好玩?機(jī)器人可以在視頻中識(shí)別,用戶(hù)人體輪廓,實(shí)時(shí)增加各種設(shè)定的背景特效、貼紙道具,讓你的娛樂(lè)體驗(yàn)更豐富。
- 影視后期工作量大?機(jī)器人也可以識(shí)別出影視作品中的人像區(qū)域,進(jìn)行一鍵摳像、背景替換等后期處理。
百度云視覺(jué)技術(shù)已經(jīng)把世界“看透”?;诎俣热S視覺(jué)技術(shù),機(jī)器可以像人一樣看透世界,從而更好地在AR、新零售、工程機(jī)械等領(lǐng)域施展才能。基于動(dòng)態(tài)視覺(jué)研究,可以更好地進(jìn)行視頻分析以及人機(jī)交互。
當(dāng)前,百度計(jì)算機(jī)視覺(jué)技術(shù)也已全線開(kāi)放,包括人臉識(shí)別、文字識(shí)別(OCR)、圖像審核、圖像識(shí)別、圖像搜索5大類(lèi)別,58項(xiàng)基礎(chǔ)能力,已服務(wù)于幾十萬(wàn)開(kāi)發(fā)者。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。