百度又一個黑科技:AI內容風控了解一下?

2018年上半年,內容領域的違規(guī)監(jiān)管收緊,很多企業(yè)都如履薄冰。

今日頭條、抖音、快手等明星企業(yè)都因涉嫌推送低俗色情內容開始整改,關停了一些流量巨大的板塊和產品。各家也紛紛開始加大審核員招聘,動輒就要4000、5000人的規(guī)模。

對于內容產業(yè)來說,機器學習算法的極高分發(fā)效率為其打開了一扇全新的大門,這讓信息流、短視頻等發(fā)展如火如荼。但當海量內容出現,內容上的不可控已經成為內容產業(yè)當前最大的問題。

原因很簡單。

全新分發(fā)邏輯下的誕生海量內容,人工審核的效率又非常低,風險在所難免,一旦監(jiān)管收緊,風險劇增??梢哉f,內容產業(yè)就像握著半個羅盤,機器學習帶來的高分發(fā)效率讓他們不斷靠近目的地,可對于內容的不可控又讓他們不斷偏離開了航線。

違規(guī)內容收緊,“AI內容風控”應運而生

不過這種現狀,不一定非要靠成千上萬的人工來做。

最近,百度提出了“AI內容風控”概念。說起風控,通常大家會條件反射地聯想到金融行業(yè)。實際上金融風控和內容風控的確有異曲同工之處,風控能力差時,“老賴”產生的壞賬會破壞一個金融服務上的整體收益,就像內容創(chuàng)作者鉆空子產生的低質量內容會破壞整個內容分發(fā)平臺的聲譽和用戶體驗一樣。而金融服務的風控過去耗費大量人力,今天卻可以依靠人工智能建立模型來實現,在這一點上,內容風控也是一樣。

而百度在內容分發(fā)方面一直是集大成者,在內容產業(yè)火熱之前,百度以搜索引擎為立足點、以百度貼吧、空間等產品為沉淀,已經開始和大量圖片、文字和視頻打交道。何況不得不說一句,相比那些品類化的內容平臺,百度產品定位是最大眾化的,自然也會比其他內容平臺更容易遇到不當內容。

不管從企業(yè)自身的發(fā)展來看,還是從行業(yè)整體走向來看,AI內容風控都是一條必經之路。

針對這一問題,我們聯系到百度內容風控專家,專家告訴我們,百度內容風控的范疇分為三部分,包含了違法違規(guī)、垃圾信息、內容質量差等情況,同時包括了圖像、富媒體、文字等多種內容形式。

而想要實現對多種內容的風控,自然離不開豐富的AI技術構件。粗略的說,在整個內容風控體系上,百度至少應用上了圖像識別、富媒體識別、NLP、分類/聚類、關聯挖掘、機器學習方案六大類算法能力。

例如當內容創(chuàng)作者發(fā)布色情圖片時,可以通過分類器發(fā)現圖片的不當性。而如果發(fā)布的圖片中含有商標、水印等等侵權問題,可以利用循環(huán)神經網絡來進行命令實體識別。同時內容分發(fā)平臺上還會經常出現大量注冊賬號,大量發(fā)布不當內容的行為,這時百度的內容風控體系就可以通過構建圖模型挖掘這些賬戶之間的關聯,將其“一網打盡”。

在2017年全年,百度處置的有害信息高達451.2億余條,其中99%的信息在上線前就已經被自動攔截,大大減少了人工勞動。有了這一AI風控體系,就好像掌握了羅盤的另一半,可以更加高效地回歸航線,減少因為內容審核造成航行失控的可能性。

AI平衡術

其實用AI進行內容審核對于我們來說并不陌生,可在實際應用中,我們遇到的情況大多都是正常內容被莫名其妙地下線或限流,連人工編輯自己都不知道原因是什么。

可有害信息僅需要很簡單的處理,例如(奧…&夜¥美#!女!&)這樣的形式,就能出現在我們眼前。這是因為很多內容分發(fā)平臺應用的AI審核機制過于粗放,沒有能力應對海量內容,更沒有能力應對越來越豐富的內容形式。

百度內容風控專家告訴我們,在這一系列的技術研發(fā)中,百度注重的是解決那些以往的AI審核機制無法解決的問題。

例如同一內容的跨場景判斷,就是困擾平臺已久的問題。打個比方說,一張美麗的少女照片如果出現在時尚、美妝類的內容場景中就沒有問題。但如果搭配上“溫柔少婦、青春少女”、“按摩保健、同城交友”這樣的上下文,相信大家都能明白這是在暗示些什么了。

在百度內容風控的解決方案中,為了在不同場景中尋找共性,引入了包含圖片+文字的跨模態(tài)深度學習模型,以便可以對內容進行綜合識別。同時為了保證模型在不同內容形式中重復可用,百度采用了遷移學習神經網絡進行樣本訓練,從而增加模型的通用可遷移。

另一大難題,則是內容審核之后的處理機制。作為創(chuàng)作者,有時用了一張侵權圖片,或者是因為手誤打了一些病句、錯別字、敏感詞等等,只是無心之失。就如同有時忘記還信用卡一樣,并非刻意逾期。但有些人卻會故意不斷發(fā)布不當內容,甚至注冊多個小號以逃避審核封號。

應對這種情況,百度在AI內容風控上提出了分階段的處理手段。如果只是低危風險的無心之失,風控系統(tǒng)通常是以內容線下、自動下線等等方式進行處理。但如果進一步發(fā)展到中、高危風險,就會對賬戶進行整改、甚至下線作為懲罰。

解決了這些問題后,百度正在讓AI在內容風控上發(fā)揮更大的效用,使其更加接近人類編輯。

全球大勢之下,AI內容風控正在成為必備品

從全球內容產業(yè)的發(fā)展來看,內容風控機制的發(fā)展僅僅是內容產業(yè)整體進化重要一步。內容風控可以通過減少人工審核來提升內容分發(fā)的商業(yè)效率,讓內容產業(yè)重量變得更“輕”——輕人力、輕成本、輕流程,讓AI來解決更多問題。

在海外, Facebook這類與內容打交道的企業(yè)每年都耗費大量技術投入在解決假新聞和低俗內容。谷歌也深受其害,曾經因在平臺上發(fā)現涉及到恐怖主義的廣告而陷入信任危機。目前谷歌正在利用人力對視頻數據進行標注,從而訓練出自動識別惡意視頻的AI模型。

從百度內容風控展示出的六大體系來看,和專注文字、圖片審核的Facebook以及專注建立視頻識別模型的谷歌不同,能應對跨場景和富媒體識別的百度在技術完成度上已經走在了世界前列。

同時,這樣的AI內容風控體系,也可以在其他領域發(fā)揮作用。比如虛假信息泛濫的醫(yī)療廣告,一直是違規(guī)內容的重災區(qū),通過AI風控體系,百度2017年打擊虛假醫(yī)療廣告6000萬條,在醫(yī)療廣告整治方面,百度風控系統(tǒng)全年屏蔽了近23萬個非法醫(yī)療類詞匯,大大減少了非法醫(yī)療保健廣告的危害。

而且我們也能夠發(fā)現,隨著各種新技術的發(fā)展,出產低質量內容的成本也越來越低,甚至可以通過幾張照片、一段音頻就能為造出惟妙惟肖的虛假視頻。

在這樣的前提下,利用AI進行內容風控的重要性只會不斷提高,我們未來需要應對的不僅僅是不當內容和低質量內容,很可能還會有人類都難以分辨的虛假內容。這樣看來,AI內容風控不僅僅是一項增益技術,而是駛向內容產業(yè)金銀島保駕護航的必由之路。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2018-06-28
百度又一個黑科技:AI內容風控了解一下?
原標題:百度又一個黑科技:AI內容風控了解一下?2018年上半年,內容領域的違規(guī)監(jiān)管收緊,很多企業(yè)都如履薄冰。

長按掃碼 閱讀全文