鈦媒體App 7月17日消息,據(jù)報(bào)道,包括
蘋果、
英偉達(dá)、Salesforce和Anthrophic在內(nèi)的一些大型科技公司,被曝在訓(xùn)練AI模型時(shí)使用了來自谷歌旗下視頻網(wǎng)站YouTube的未授權(quán)數(shù)據(jù)。這些公司使用了一個(gè)由第三方提供的數(shù)據(jù)集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平臺(tái)上未經(jīng)許可抓取內(nèi)容的規(guī)定。報(bào)道指出,這些科技公司在訓(xùn)練AI模型時(shí)都使用了一個(gè)名為“YouTube Subtitles(YouTube字幕)”的數(shù)據(jù)集,大小為5.7GB,包含4.89億個(gè)單詞,來自Youtube上超過4.8萬個(gè)頻道中的17.35萬個(gè)視頻。該數(shù)據(jù)集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動(dòng)轉(zhuǎn)錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論