學(xué)而思被指“偷數(shù)據(jù)”訓(xùn)練AI,牽出大模型“隱秘的角落”_今日熱文
南方財(cái)經(jīng)全媒體見習(xí)記者馬嘉璐 21世紀(jì)經(jīng)濟(jì)報(bào)道記者尤一煒 廣州報(bào)道
(資料圖)
近日,筆神作文指控昔日合作伙伴學(xué)而思“偷數(shù)據(jù)”訓(xùn)練自家AI產(chǎn)品,隨后學(xué)而思對(duì)此公開予以否認(rèn)。筆神作文稱之為國內(nèi)“AI大模型數(shù)據(jù)被盜第一案”。不過,有律師分析,從現(xiàn)有內(nèi)容來看,該案應(yīng)屬于普通的數(shù)據(jù)侵權(quán)糾紛或協(xié)議糾紛,目前還不能判斷學(xué)而思是否違法。
筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:用于訓(xùn)練AI大模型的數(shù)據(jù),來源是否合法合規(guī)?事實(shí)上,關(guān)于大模型數(shù)據(jù)集的紛爭已在海內(nèi)外頻頻上演。
監(jiān)管方面正在注意AI大模型訓(xùn)練數(shù)據(jù)集的合法合規(guī)。國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》明確,預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)應(yīng)保證真實(shí)性、準(zhǔn)確性、客觀性、多樣性,不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容,包含個(gè)人信息的應(yīng)符合“告知-同意”等原則。對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣認(rèn)為,平衡安全和發(fā)展成為大模型數(shù)據(jù)集監(jiān)管的重要挑戰(zhàn),數(shù)據(jù)安全審計(jì)制度等可以為此提供借鑒。
或?yàn)閲鴥?nèi)“AI大模型數(shù)據(jù)被盜第一案”
筆神作文與學(xué)而思關(guān)于是否“偷數(shù)據(jù)”在互聯(lián)網(wǎng)公開“喊話”,已進(jìn)行了一個(gè)半回合。
筆神作文將之稱為“AI大模型數(shù)據(jù)被盜第一案”。6月13日下午,筆神作文通過自己的微信公眾號(hào)、微博和第三方媒體發(fā)布消息,指控其合作伙伴學(xué)而思未經(jīng)授權(quán)爬取了筆神作文的數(shù)據(jù),用于訓(xùn)練大模型產(chǎn)品。同日17時(shí),學(xué)而思官方公眾號(hào)對(duì)此事作出回應(yīng),表示自己對(duì)筆神作文數(shù)據(jù)的使用屬于雙方合同約定的正常合作范圍,筆神作文“主觀揣測(cè)”“與事實(shí)嚴(yán)重不符”。
14日19時(shí),筆神作文再次通過微信公眾號(hào)列舉更多“證據(jù)”,力圖證明學(xué)而思在4月13日至17日,通過“爬蟲”技術(shù)非法訪問、緩存筆神作文App服務(wù)器數(shù)據(jù)258萬次。
“筆神作文APP”微信公眾號(hào)公布的雙方合作API接口“每日數(shù)據(jù)調(diào)用量折線圖”
面對(duì)筆神作文的再次“喊話”,學(xué)而思是否有新的回應(yīng)?截至發(fā)稿前,學(xué)而思與筆神作文方面均未針對(duì)此事向南方財(cái)經(jīng)全媒體記者給出相關(guān)回應(yīng)。
在13日的聲明中,學(xué)而思透露雙方合作的內(nèi)容:筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”,用于學(xué)而思相關(guān)服務(wù)中,每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬次量級(jí)。筆神作文則在14日發(fā)布的消息中稱,雙方合同明確“甲方(注:三體云聯(lián)公司,為學(xué)而思關(guān)聯(lián)公司)不得在未經(jīng)乙方(注:一筆兩劃公司,“筆神作文”系該司旗下品牌)允許的情況下用于任何其他用途,包括緩存,存儲(chǔ),作為語料進(jìn)行計(jì)算,訓(xùn)練等。”
筆神作文表示,將通過司法程序解決糾紛,要求“學(xué)而思”支付1元賠償金,公開道歉,并刪除已爬取的數(shù)據(jù)。
律師:現(xiàn)有內(nèi)容難以判斷學(xué)而思違法
“‘AI大模型數(shù)據(jù)被盜第一案’有些噱頭的成分?!北本┦懈偺旃\律師事務(wù)所合伙人周楊認(rèn)為,本案爭議的焦點(diǎn)是用于訓(xùn)練AI大模型的數(shù)據(jù),而并非AI大模型的算法,應(yīng)屬于普通的數(shù)據(jù)侵權(quán)糾紛或協(xié)議糾紛。
海問律師事務(wù)所合伙人楊建媛分析,該事件可以從知識(shí)產(chǎn)權(quán)保護(hù)和反不正當(dāng)競爭兩個(gè)角度來看。從知識(shí)產(chǎn)權(quán)保護(hù)角度,如果筆神作文對(duì)學(xué)而思獲取的內(nèi)容享有著作權(quán),且學(xué)而思的行為不符合著作權(quán)法規(guī)定的“可以不經(jīng)著作權(quán)人許可”的“例外”情況,則學(xué)而思的行為需經(jīng)過筆神作文的許可。她還強(qiáng)調(diào),如筆神作文所稱為事實(shí),學(xué)而思對(duì)筆神作文數(shù)據(jù)的使用可能超出了“合理使用”的范疇。
從反不正當(dāng)競爭角度,學(xué)而思是否存在未經(jīng)授權(quán)爬取筆神作文數(shù)據(jù)的情況、是否利用所獲數(shù)據(jù)開發(fā)實(shí)質(zhì)性替代筆神作文的產(chǎn)品或服務(wù),是判斷是否構(gòu)成侵權(quán)的關(guān)鍵。楊建媛分析,從筆神作文的敘述來看,其可能并未對(duì)學(xué)而思設(shè)置反爬措施,但是在協(xié)議中約定了相關(guān)禁止行為。單純的違約行為較難直接認(rèn)定為違反了反不正當(dāng)競爭法下的商業(yè)道德要求。另外,學(xué)而思將數(shù)據(jù)用于大模型訓(xùn)練,訓(xùn)練出來的產(chǎn)品與筆神作文的產(chǎn)品是否存在競爭關(guān)系,是否會(huì)對(duì)筆神作文造成不良后果,還存在爭議。
周楊也表示,學(xué)而思是否違法,關(guān)鍵要看合同中對(duì)數(shù)據(jù)的獲取、處理和使用是如何約定的,以及筆神作文是否對(duì)作品、數(shù)據(jù)庫享有版權(quán)。根據(jù)現(xiàn)有雙方披露的內(nèi)容,“還不能判斷”。
數(shù)據(jù)來源是否合規(guī)牽出“隱秘的角落”
筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:訓(xùn)練AI大模型通常需要海量的數(shù)據(jù),而這些數(shù)據(jù)的來源是否合法合規(guī)?
事實(shí)上,隨著ChatGPT帶動(dòng)生成式AI的爆火,關(guān)于AI大模型訓(xùn)練數(shù)據(jù)的紛爭在海內(nèi)外頻頻上演。
爭議所涉及的數(shù)據(jù)可以大致分為兩類:一類有著明確的知識(shí)產(chǎn)權(quán),如原創(chuàng)的圖片、音樂、視頻、文章等;一類由用戶在平臺(tái)上的零散發(fā)言匯集而成,如百科、社區(qū)、貼吧等。
今年年初,Stability AI受到美國大型商業(yè)圖庫提供商Getty Images以及漫畫家的分別起訴,原因是他們認(rèn)為Stability AI用于訓(xùn)練AI圖像生成模型Stable Diffusion的數(shù)據(jù)“非法復(fù)制和處理了受版權(quán)保護(hù)的圖像”。
此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對(duì)API接口收費(fèi),且價(jià)格不菲。此前,這些平臺(tái)的內(nèi)容可以被谷歌、openAI等公司免費(fèi)爬取,用作大語言模型的訓(xùn)練庫。推特CEO馬斯克稱“他們(微軟)非法利用推特的數(shù)據(jù)來訓(xùn)練,是時(shí)候起訴他們了?!盧eddit則在其官網(wǎng)更新條款:“未經(jīng)Reddit明確同意,您不得將Reddit上的內(nèi)容用作任何模型訓(xùn)練的輸入。未經(jīng)明確批準(zhǔn),禁止將任何使用Reddit數(shù)據(jù)訓(xùn)練的模型用于商業(yè)用途。”
谷歌C4數(shù)據(jù)集支撐了多個(gè)AI模型的預(yù)訓(xùn)練。今年4月,《華盛頓郵報(bào)》與艾倫人工智能研究院合作調(diào)查發(fā)現(xiàn),該數(shù)據(jù)集中存在只接受付費(fèi)訂閱的網(wǎng)站,以及近30個(gè)被美國政府認(rèn)定為盜版和假冒產(chǎn)品市場的網(wǎng)站。
平衡安全與發(fā)展成監(jiān)管挑戰(zhàn)
監(jiān)管方面正在注意AI大模型訓(xùn)練數(shù)據(jù)集的情況。
當(dāng)?shù)貢r(shí)間2023年6月14日,歐洲議會(huì)投票通過關(guān)于《人工智能法案》的談判授權(quán)草案,意味著該法案將進(jìn)入歐盟啟動(dòng)監(jiān)管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎(chǔ)模型的供應(yīng)商需要公開,他們?cè)谟?xùn)練模型過程中,是否使用了受版權(quán)保護(hù)的數(shù)據(jù)。
此前,國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》也明確,用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù),應(yīng)符合網(wǎng)安法等法律法規(guī)的要求,不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容,包含個(gè)人信息的應(yīng)符合“告知-同意”原則等要求,還應(yīng)保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。
“對(duì)大模型數(shù)據(jù)集的監(jiān)管,如何能做到安全和發(fā)展的平衡,是一個(gè)重要挑戰(zhàn)。”對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣表示,《生成式人工智能服務(wù)管理辦法(征求意見稿)》已對(duì)AI訓(xùn)練數(shù)據(jù)集的合規(guī)要求搭建了清晰的框架,在運(yùn)用著作權(quán)和知識(shí)產(chǎn)權(quán)方式之外,還可以探索使用多種法律手段去實(shí)現(xiàn)。
張欣分析,監(jiān)管的落地,還存在事后難追溯等問題,尤其在算法復(fù)雜度日益攀升、出現(xiàn)“算法黑箱”等情況下,如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī),十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志,很難從外部進(jìn)行確認(rèn)。此外,從技術(shù)上來說大模型很難精確刪除某個(gè)用戶的個(gè)人信息,這就限制了個(gè)人信息保護(hù)中“刪除權(quán)”的行使。
歐盟《人工智能法案》草案設(shè)置了吹哨人制度,鼓勵(lì)專業(yè)人士從內(nèi)部進(jìn)行監(jiān)督,為監(jiān)管提供了一種創(chuàng)新思路。張欣認(rèn)為,大模型開發(fā)者應(yīng)做好信息記錄和披露的工作,提高數(shù)據(jù)集的透明度,在算法解釋性遇到困難的時(shí)候,至少可以通過數(shù)據(jù)的透明和可解釋來尋找答案。數(shù)據(jù)安全審計(jì)制度在國際上也有較為通行的經(jīng)驗(yàn),大模型數(shù)據(jù)監(jiān)管也可以探索使用審計(jì)的方式,找到透明度與保護(hù)商業(yè)秘密之間的平衡。
標(biāo)簽:
搶先讀
- 對(duì)違規(guī)行為“零容忍” 北交所對(duì)漢鑫科技予以紀(jì)律處分 今日?qǐng)?bào)
- 學(xué)而思被指“偷數(shù)據(jù)”訓(xùn)練AI,牽出大模型“隱秘的角落”_今日熱文
- 操作計(jì)算機(jī)教案(計(jì)算機(jī)教案)
- 中興通訊亮相2023中國光網(wǎng)絡(luò)研討會(huì):50G PON拓寬光網(wǎng)應(yīng)用底座
- 有網(wǎng)民反映大召寺周邊特產(chǎn)店牛肉干質(zhì)量情況,呼和浩特回應(yīng)
- 游戲app平臺(tái)推薦(游戲平臺(tái)下載哪個(gè)好)
- 環(huán)球新消息丨眾泰sr7水箱在什么位置圖片(眾泰sr7水箱在什么位置?)
- 你會(huì)乘坐人工智能飛行員所操控的航班嗎?
- 《F1 23》成就攻略要點(diǎn)一覽 成就怎么做?-環(huán)球速訊
- 【天天速看料】現(xiàn)在將近四分之一的安卓設(shè)備都在運(yùn)行Pie但是更新速度還是太慢了
- 熱議:長城汽車加速回歸 4 個(gè)主航道,2024 年目標(biāo) 190 萬輛
- 哪個(gè)網(wǎng)站賣書給的錢多(哪個(gè)網(wǎng)站賣書)
- 失信被執(zhí)行人銀行卡可以正常使用嗎 內(nèi)行人士這么說
- 美菱大窄門全陣容勁爆亮相 打造行業(yè)現(xiàn)象級(jí)產(chǎn)品
- 贏銷力|經(jīng)銷商為何不選您的產(chǎn)品?這些選品邏輯很關(guān)鍵|世界最新
- 全球新動(dòng)態(tài):美質(zhì)慧心賡續(xù)經(jīng)典 希望之星熠熠生輝 ——記優(yōu)秀青年京劇演員周美慧成功演出《白蛇傳》
- 迪阿股份跌2.1% IPO超募32億上市即巔峰
- 中國東方演藝集團(tuán)數(shù)字街舞演藝《街舞觀止》正式亮相
- 高三下學(xué)期數(shù)學(xué)教學(xué)計(jì)劃
- 國家唯一認(rèn)證的祛痘產(chǎn)品,淡化痘印的6個(gè)小妙招!
- 全球速看:LINK+丨合生活聚個(gè)HUI,合生華北618狂歡盛典,鉅惠來襲
- 民生證券給予航宇科技推薦評(píng)級(jí)|全球新視野
- 百度搜題在線使用拍題 作業(yè)掃一掃秒出答案|全球熱頭條
- 起亞COO:我兜里“都是”錢!我后進(jìn)來,收拾你們! 全球今日?qǐng)?bào)
- 騰訊先鋒實(shí)名認(rèn)證方法步驟
- 盤點(diǎn)國漫中的古風(fēng)女神,佳人如玉美人如畫,舉手投足間傾國傾城!
- 九個(gè)月寶寶早教的方法(九個(gè)月寶寶早教的方法)_時(shí)訊
- 日本眾議院未通過對(duì)岸田內(nèi)閣的不信任案
- 快報(bào):個(gè)人工作計(jì)劃
- zbrush4如何設(shè)置中文(zbrush4如何設(shè)置中文)
- 自持物業(yè)有產(chǎn)權(quán)嗎(自持物業(yè)是什么意思) 全球熱訊
- 短期反彈到位 下周調(diào)整_今日觀點(diǎn)
- 環(huán)球信息:洪城環(huán)境(600461.SH):擬4671.71萬元收購南昌工貿(mào)100%股權(quán)
- 資源城市鄂爾多斯首片單晶切片下線
- 市領(lǐng)導(dǎo)調(diào)研文商旅融合發(fā)展工作|當(dāng)前動(dòng)態(tài)
- 全球焦點(diǎn)!萬通發(fā)展?jié)q停
- 高層的槽鋼層一般在幾樓是什么意思(高樓槽鋼層一般在哪層)_環(huán)球滾動(dòng)
- 每日?qǐng)?bào)道:06.19 上證指數(shù)、創(chuàng)業(yè)板指數(shù) 實(shí)戰(zhàn)技術(shù)應(yīng)用
- 全球熱門:x開頭的英語單詞大全有哪些 x開頭的英語單詞大全
- 華緯科技(001380.SZ):關(guān)于如何走出去的問題公司管理層也有在思考
- 每日熱議!江西銀保監(jiān)局:截至4月末,全省農(nóng)險(xiǎn)保費(fèi)收入14.36億元
- 注意!歐盟新電池法規(guī)出臺(tái)了!-當(dāng)前最新
- 撫順月牙島:煥新迎盛會(huì) 當(dāng)前視點(diǎn)
- 杭州市臨平區(qū)崇賢一小首屆課后服務(wù)X課程成果展——讓每個(gè)孩子都能成為最好的自己 今日?qǐng)?bào)
- 專業(yè)祛痘:祛痘痘痘印最好的藥膏! 每日快訊
- 歐委會(huì)稱將不再采購華為中興設(shè)備 外交部回應(yīng)
- 遼寧銀保監(jiān)局:優(yōu)先在重點(diǎn)幫扶縣開展三大糧食作物完全成本保險(xiǎn)和收入保險(xiǎn)
- 全國游客│這個(gè)夏天來黔西南旅游,“兩免兩減半”!|播資訊
- 觀熱點(diǎn):暗黑4犧牲威能獲取地點(diǎn)介紹
- 獎(jiǎng)勵(lì)一套房!杭州跳橋救人小哥家人最新回應(yīng):我們都不收
- 天天日?qǐng)?bào)丨“618”騙局來襲!有人被騙79萬元!這些陷阱要小心
- 環(huán)球看熱訊:濮陽市中小學(xué)幼兒園7月7日起放暑假
- 激發(fā)國內(nèi)市場活力 二季度消費(fèi)市場有望保持平穩(wěn)增長態(tài)勢(shì)_當(dāng)前速訊
- 全球快看點(diǎn)丨成都大運(yùn)會(huì)首批賽事門票購買(比賽項(xiàng)目+價(jià)格+數(shù)量+入口)
- 民生證券給予貴州茅臺(tái)推薦評(píng)級(jí),2022 年度股東大會(huì)點(diǎn)評(píng):向美而行,戰(zhàn)略升級(jí)_全球?qū)崟r(shí)
- 650億融資過會(huì)!A股史上募資排名第四,全球農(nóng)化巨頭先正達(dá)上市漸行漸近
- 昇思開源社區(qū)理事會(huì)成立 基于昇思AI框架的全模態(tài)大模型“紫東.太初2.0”發(fā)布
- 《暗黑破壞神4》大米開啟方法_全球視訊
- *ST紅相:江蘇新能源公司正常運(yùn)行中_全球新動(dòng)態(tài)
- 電影《封神第一部》發(fā)布“神話成真”特輯 三千年國民神話筑夢(mèng)成真
- 環(huán)球今亮點(diǎn)!2023長沙中考分?jǐn)?shù)怎么折算
- 港股日?qǐng)?bào) | 恒生指數(shù)漲1.07%,南向資金凈賣出96.26億港元,汽車板塊領(lǐng)漲
- 全球播報(bào):外屏絕了!三星Galaxy Z Flip5可折疊手機(jī)渲染圖曝光
- 安集科技邀您共赴SEMICON China 2023 半導(dǎo)體技術(shù)盛宴
- 國家發(fā)改委:加快向民營企業(yè)開放國家重大科研基礎(chǔ)設(shè)施
- 全球熱點(diǎn)評(píng)!華緯科技(001380.SZ):募投項(xiàng)目中“新增8000萬只各類高性能彈簧及表面處理技改項(xiàng)目”預(yù)計(jì)在2023年第四季度有部分產(chǎn)能釋放
- 賈玲宣布減肥100斤,近照顏值逆天,我卻笑不出來…|環(huán)球新資訊
- 全球觀天下!烏當(dāng)區(qū)幼升小什么時(shí)候開始報(bào)名2023
- 網(wǎng)傳大學(xué)生跟同伴游泳溺亡?廣西南寧理工學(xué)院嚴(yán)正聲明
- 2023年數(shù)字孿生行業(yè)研究報(bào)告|世界觀察
- 新疆人大代表聯(lián)絡(luò)站:民眾解憂“萬事屋”
- 世界今亮點(diǎn)!2023年電爐鋼板塊上市公司有哪些?(6月16日)
- 天天即時(shí)看!榮耀90系列評(píng)測(cè):2億像素寫真相機(jī),讓你自然上鏡
- 籌碼分布怎么看主力籌碼
- 江蘇有哪些大專院校(蘇州大專院校有哪些)_當(dāng)前焦點(diǎn)
- 焦點(diǎn)速看:IDC:換機(jī)潮疊加 AI 潮,明年全球筆電出貨量將實(shí)現(xiàn)兩位數(shù)增長
- 國家統(tǒng)計(jì)局:5月風(fēng)電增速回落,太陽能發(fā)電由降轉(zhuǎn)增
- 環(huán)球信息:全場第一次射正來自緬甸!緬甸球員倫莫昂遠(yuǎn)射被顏駿凌沒收
- 風(fēng)云年代曾光希原型(曾光希簡介)
- 天天資訊:為困難群眾上門辦事,金山區(qū)社區(qū)事務(wù)遠(yuǎn)程視頻幫辦系統(tǒng)啟用
- csgo哪些是靠譜的老牌交易平臺(tái) 十大老牌csgo武器交易平臺(tái)排名-天天速讀
- 【全球新視野】日經(jīng)225指數(shù)連續(xù)10周收高 創(chuàng)下10年來最長連漲記錄
- 全球聚焦:怎么燉魚膠才好吃(怎么燉魚)
- 環(huán)球新消息丨迎峰度夏又至 中國統(tǒng)調(diào)電廠存煤達(dá)歷史新高
- 看一看新款途睿歐,準(zhǔn)備入手了,終于不再像貨拉拉了
- 環(huán)球熱議:內(nèi)蒙古銀行黨委委員馬寶林被查
- 世界要聞:光庫科技今日20%漲停 二機(jī)構(gòu)買入9682.14萬元
- 初級(jí)會(huì)計(jì)心得 初級(jí)會(huì)計(jì)心得體會(huì)800字-環(huán)球關(guān)注
- 天空之刃艾澤里_天空之刃艾則里
- 天天熱門:做一臺(tái)有靈魂的瓦罐! 蔚來ET5 Touring成功了么?
- 當(dāng)前視點(diǎn)!采用全新設(shè)計(jì)風(fēng)格 新款別克昂科威Avenir官圖發(fā)布
- 世界微動(dòng)態(tài)丨自首與坦白的區(qū)別是什么_該怎么區(qū)分自首和坦白
- 中國女排大膽決策,朱婷的舞臺(tái)限定球迷擔(dān)憂,蔡斌的考慮令人意外
- 220萬元檢測(cè)智商?賈躍亭公布FF 91第二、三位車主:都是有錢人 當(dāng)前最新
- 產(chǎn)品質(zhì)量問題主要有哪些?-環(huán)球短訊
- 柯志恩轟高雄砸189億治水 大雨來照淹不誤 焦點(diǎn)熱門
- 遼寧撫順英烈紀(jì)念碑被烈士家屬指刻錯(cuò)名字,官方:將從源頭核查_每日動(dòng)態(tài)
- 2023青島一次性創(chuàng)業(yè)崗位開發(fā)補(bǔ)貼申請(qǐng)攻略(條件+材料+入口)
- POM行情周報(bào)(6.12-6.16) 世界看熱訊
- 《花戎》電視劇是什么小說 花戎婚禮第幾集-世界新視野