- +1
涉17萬(wàn)個(gè)視頻!英偉達(dá)等巨頭被曝違規(guī)使用YouTube數(shù)據(jù)訓(xùn)練模型
科技巨頭被曝使用未經(jīng)授權(quán)的YouTube內(nèi)容訓(xùn)練AI(人工智能)模型。
當(dāng)?shù)貢r(shí)間7月16日,據(jù)外媒報(bào)道,包括蘋果、英偉達(dá)、Salesforce和Anthrophic在內(nèi)的一些大型科技公司,被曝在訓(xùn)練AI模型時(shí)使用了來(lái)自谷歌旗下視頻網(wǎng)站YouTube的未授權(quán)數(shù)據(jù)。這些公司使用了一個(gè)由第三方提供的數(shù)據(jù)集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平臺(tái)上未經(jīng)許可抓取內(nèi)容的規(guī)定。
報(bào)道指出,這些科技公司在訓(xùn)練AI模型時(shí)都使用了一個(gè)名為“YouTube Subtitles(YouTube字幕)”的數(shù)據(jù)集,大小為5.7GB,包含4.89億個(gè)單詞,來(lái)自Youtube上超過(guò)4.8萬(wàn)個(gè)頻道中的17.35萬(wàn)個(gè)視頻。該數(shù)據(jù)集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動(dòng)轉(zhuǎn)錄的文本,除了英語(yǔ)外,通常還附帶日語(yǔ)、德語(yǔ)和阿拉伯語(yǔ)等語(yǔ)言的翻譯。
非營(yíng)利性組織EleutherAI是爭(zhēng)議數(shù)據(jù)集的創(chuàng)作者,公司尚未對(duì)此事作出回應(yīng)。根據(jù)官網(wǎng)介紹,EleutherAI的目標(biāo)是“降低AI開(kāi)發(fā)的門檻,通過(guò)訓(xùn)練和發(fā)布模型,讓大家接觸到尖端的AI技術(shù)”。此前,EleutherAI發(fā)布了名為“Pile”的數(shù)據(jù)匯編,其中的大部分?jǐn)?shù)據(jù)集都是對(duì)公眾開(kāi)放的,包括YouTube Subtitles。
資料顯示,在蘋果于今年4月發(fā)布端側(cè)小模型OpenELM模型的幾周之前,公司就使用了Pile進(jìn)行訓(xùn)練。不過(guò),值得注意的是,蘋果自己并沒(méi)有下載這些數(shù)據(jù)。因此,從技術(shù)層面來(lái)說(shuō),是EleutherAI違反了YouTube的使用條款。
AI初創(chuàng)公司Anthropic的一位發(fā)言人證實(shí),Pile數(shù)據(jù)集已被用于訓(xùn)練公司的生成式AI助手Claude,而YouTube的相關(guān)條款僅涉及“直接使用其平臺(tái)”,建議與Pile的原作者討論任何違反YouTube服務(wù)條款的行為。蘋果、英偉達(dá)、Salesforce等其他公司尚未對(duì)此事作出回應(yīng)。
此次事件影響到的創(chuàng)作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《紐約時(shí)報(bào)》、英國(guó)廣播公司(BBC)和美國(guó)ABC News等大型新聞出版商。另外,數(shù)據(jù)集中的一些材料宣傳了“地平說(shuō)”等陰謀論,甚至還包含了已被刪除的視頻的內(nèi)容。現(xiàn)在,Pile已從官方下載網(wǎng)站上下架,但仍可通過(guò)文件共享服務(wù)訪問(wèn)。
對(duì)此,知名科技博主Marques Brownlee在X(原推特)平臺(tái)上表示:“蘋果從幾家公司獲取了他們AI所需的數(shù)據(jù),其中一家從YouTube視頻中抓取了大量數(shù)據(jù)/轉(zhuǎn)錄文本,包括我的視頻。從技術(shù)上來(lái)說(shuō)蘋果沒(méi)有‘犯錯(cuò)’,他們沒(méi)有主動(dòng)抓取數(shù)據(jù)。但這將是一個(gè)長(zhǎng)期存在的問(wèn)題?!?/p>
Marques Brownlee的推文。來(lái)源:X平臺(tái)
雖然蘋果和其他公司或許是使用了公開(kāi)的數(shù)據(jù)集,并沒(méi)有違規(guī)行為,但此次事件讓人們又一次關(guān)注到AI訓(xùn)練背后的數(shù)據(jù)問(wèn)題。今年年初,YouTube的母公司谷歌被曝利用該平臺(tái)的視頻來(lái)訓(xùn)練旗下模型,谷歌當(dāng)時(shí)回應(yīng)稱,這種行為沒(méi)有違反平臺(tái)與創(chuàng)作者的協(xié)議。
今年3月,OpenAI首席技術(shù)官米拉·穆拉蒂(Mira Murati)在接受采訪時(shí)還曾對(duì)文生視頻模型Sora的訓(xùn)練數(shù)據(jù)來(lái)源含糊其詞。4月,YouTube首席執(zhí)行官尼爾·莫漢(Neal Mohan)在采訪中表示,他并沒(méi)有直接證據(jù)能夠證明OpenAI確實(shí)使用了YouTube的視頻來(lái)完善其文生視頻AI工具Sora,如果真的使用了,那就“明顯違反”了YouTube平臺(tái)的使用條款。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




