谷歌確認正在抓取網絡數據對Bard進行訓練

(源初/文)周一,Gizmodo發(fā)現谷歌更新了其隱私政策,披露公司可能會使用從網絡上抓取的公共數據來訓練其各種人工智能服務,如Bard和Cloud AI。

谷歌發(fā)言人克里斯塔·馬爾登(Christa Muldoon)對The Verge表示:“我們的隱私政策一直都明確表示,谷歌使用來自開放網絡的公共可獲得信息來訓練語言模型,用于Google翻譯等服務?!薄按舜胃聝H是澄清了新的服務(如Bard)也包括在內。我們在開發(fā)AI技術時將隱私原則和保護措施納入其中,符合我們的AI原則?!?/p>

根據2023年7月1日更新后的內容,谷歌的隱私政策現在表示,“谷歌使用信息改進我們的服務并開發(fā)有益于用戶和公眾的新產品、功能和技術”,并且公司可能會“使用公開可獲得的信息來幫助訓練谷歌的AI模型,并構建產品、功能和Google翻譯、Bard以及Cloud AI能力”。

從該政策的修訂歷史中可以看出,更新為使用收集的數據來訓練的服務提供了一些額外的明確說明。例如,文件現在表示,該信息可能用于“AI模型”,而不是“語言模型”,這使得谷歌在使用公共數據進行訓練和構建系統(tǒng)時具有更多的自由。甚至該說明也被嵌入在政策的“您的本地信息”選項卡下的一個名為“公開可訪問的來源”的嵌入鏈接中,您必須點擊該鏈接才能打開相關部分。

更新后的政策明確指出,“公開可獲得的信息”用于訓練谷歌的AI產品,但未說明公司將如何(或是否)防止包含受版權保護的材料在數據池中。許多公開可訪問的網站都有禁止數據收集或網絡抓取以用于訓練大型語言模型和其他AI工具集的政策。這種方法在GDPR等全球法規(guī)的保護下可能會引發(fā)一些有趣的影響,這些法規(guī)旨在保護人們的數據不被未經明確許可的方式濫用。

這種法律的組合以及市場競爭的增加使得像OpenAI的GPT-4這樣的受歡迎的生成式AI系統(tǒng)的制造商極為謹慎,不愿透露訓練它們所使用的數據來源以及是否包括社交媒體帖子或人類藝術家和作者的受版權保護作品。當前,關于公平使用原則是否適用于這種應用的問題存在法律灰色地帶。這種不確定性引發(fā)了各種訴訟,并促使一些國家的立法者制定更嚴格的法律,以更好地監(jiān)管AI公司收集和使用其訓練數據的方式。這也引發(fā)了關于如何處理這些龐大的訓練數據以確保其不會導致AI系統(tǒng)出現危險故障的問題,處理這些數據的人員通常需要長時間工作且工作條件極其艱苦。

美國最大的報紙出版商甘奈特(Gannett)正在起訴谷歌及其母公司Alphabet,聲稱AI技術的進步幫助這家搜索巨頭在數字廣告市場上壟斷。谷歌的AI搜索測試版等產品也被稱為“抄襲引擎”,并因剝奪網站的流量而受到批評。

與此同時,Twitter和Reddit這兩個包含大量公共信息的社交平臺最近采取了極端措施,試圖阻止其他公司自由收集它們的數據。這些平臺對API進行了更改和限制,這些變化對各自社區(qū)產生了不良影響,因為反網絡抓取的變化對核心的Twitter和Reddit用戶體驗產生了負面影響。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2023-07-06
谷歌確認正在抓取網絡數據對Bard進行訓練
谷歌確認正在抓取網絡數據對Bard進行訓練

長按掃碼 閱讀全文