亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 教育 > > 正文

環(huán)球焦點!AI大模型數(shù)據(jù)被盜第一案?學而思和筆神作文“開撕”

時間:2023-06-16 22:27:52 來源:21世紀經濟報道 發(fā)布者:DN032

6月13日,筆神作文發(fā)布“關于‘學而思’ AI大模型侵權事件的聲明”。聲明稱,4月13日至17日,學而思通過“爬蟲”技術非法訪問、緩存筆神作文APP服務器數(shù)據(jù)多達258萬次。嚴重侵犯了筆神作文APP的數(shù)據(jù)權益。


(資料圖)

對此,學而思官方微博發(fā)文回應稱:“首先,MathGPT是專注于數(shù)學領域的自研大模型,沒有任何作文相關數(shù)據(jù);其次,‘作文AI助手’目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務并未使用筆神作文的任何數(shù)據(jù)?!?/p>

6月14日,筆神作文再度發(fā)文,在這篇題為《學而思,你做了一次標準的扒庫示范》的聲明中,其表示“我們認為學而思方所述并非事實”,并列出了相關證據(jù)。

受訪專家向記者分析,本次風波的實質是授權合同違約糾紛,涉及到對于合同授權范圍條款的解釋。AIGC產品獲得訓練模型數(shù)據(jù)授權是合規(guī)的根基。

學而思AI大模型疑盜取合作商數(shù)據(jù)?

“學而思在今年4月13日至4月17日,通過‘爬蟲’技術非法訪問、緩存筆神作文APP服務器數(shù)據(jù)多達258萬次。”筆神作文在6月13日聲明中表示。

筆神作文認為,這一行為不僅違反了雙方的合同條款,也違反了《數(shù)據(jù)安全法》相關規(guī)定,嚴重侵犯了筆神作文APP的數(shù)據(jù)權益。事后其曾向學而思方面進行取證,并且對方承認是他們的算法組在爬取數(shù)據(jù)并作為己用,但在收到律師函后始終沒有實質性答復。

記者了解到,筆神作文是隸屬于北京一筆兩劃科技有限公司的品牌,據(jù)其官網介紹,筆神是一款人工智能輔助寫作軟件,擁有千萬級寫作素材庫。筆神作文與學而思之間有著多年的合作基礎。

筆神作文稱,在不到一個月的時間,學而思的AI大模型MathGPT里包含的新產品“作文AI助手”就即將上線。疑似指后者作文AI產品使用了其數(shù)據(jù)。

筆神作文還表示會通過法律途徑來維護自身權益,但目前國內并沒有“AI大模型數(shù)據(jù)盜取”的判決先例?!跋M麑W而思就此支付1元賠償金,并公開道歉,同時刪除已爬取的數(shù)據(jù)?!?/p>

各執(zhí)一詞:正常合作還是“扒庫”行為?

6月13日晚,學而思發(fā)布聲明,從三方面進行回應:

一是,學而思和筆神作文于2020年12月開始合作,合作協(xié)議明確約定:筆神作文為學而思提供“筆神作文范文素材服務接口”,用于學而思相關服務中,每月保底費用包含的調用次數(shù)為百萬次量級。合作至今,雙方一直按照調用量進行正常結算。

二是,學而思對筆神作文接口的調用,屬于雙方合同約定的正常合作范圍,對筆神素材內容的使用均符合合同要求,并未用于合同以外的任何用途。

三是,筆神作文在公開聲明中提及學而思正在研發(fā)的數(shù)學大模型MathGPT以及學而思學習機“作文AI助手”,并主觀揣測學而思使用其數(shù)據(jù)用于兩款產品的訓練和研發(fā),這與事實嚴重不符。

“首先,MathGPT是專注于數(shù)學領域的自研大模型,沒有任何作文相關數(shù)據(jù);其次,作文AI助手目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務并未使用筆神作文的任何數(shù)據(jù)?!睂W而思稱。

6月14日,筆神作文發(fā)布《學而思,你做了一次標準的扒庫示范》,表示“我們認為學而思方所述并非事實”,并列出相關證據(jù)。

筆神作文稱,學而思在聲明里提到調用數(shù)據(jù)為正常使用,筆神作文在合同中明確“甲方(注:三體云聯(lián)公司)不得隨意泄露、使用、傳播或緩存乙方(注:一筆兩劃公司)服務接口中的作文范本及相關內容,否則造成的損失將由甲方全額賠償”。同時,在合同中提出“甲方不得在未經乙方允許的情況下用于任何其他用途,包括緩存,存儲,作為語料進行計算,訓練等?!?/p>

但在2023年4月13日至4月17日之間,筆神作文檢測到服務器接口出現(xiàn)大量有規(guī)律的異常訪問,導致服務器承載壓力快速升高。通過查閱服務器日志發(fā)現(xiàn):三體云聯(lián)公司未經一筆兩劃公司授權許可,用單一IP通過“爬蟲”技術非法訪問一筆兩劃公司服務器數(shù)據(jù)多達 258 萬次。

(圖源:筆神作文APP微信公眾號)

“而且,從這個IP的訪問日志來看,每次訪問的搜索詞都是作文相關的高頻搜索詞,我們每頁會返回30篇作文,每次訪問都是用搜索詞從第一頁逐頁向后翻,這種方式基本上把庫里同個題目的所有作文全部抓取完了,這種行為不是正常人使用的方式。而且很多訪問的間隔都是100毫秒左右,也不可能是正常人訪問的速度?!惫P神作文表示。

(圖源:筆神作文APP微信公眾號)

筆神作文認為,這種對數(shù)據(jù)庫的搜刮式訪問,與以往正常的訪問方式完全不同,按業(yè)內的通常說法,這就是一種典型的“扒庫”行為。

網絡安全專家陳業(yè)炫告訴記者,所謂“扒庫”是一個口語化的形容詞,用于形容大規(guī)模爬取數(shù)據(jù)。“數(shù)據(jù)爬蟲過程中,爬取的規(guī)模大了、頻率高了,就會被認為是非正常行為。通常情況下,高頻率的請求,大規(guī)模、每一篇都會訪問的遍歷式行為都需引起關注?!?/p>

據(jù)陳業(yè)炫介紹,爬蟲本身就是程序化的自動行為,比如每秒10次的訪問量可以看作是超出普通用戶的行為頻率,正常用戶不會大規(guī)模、高頻率的訪問相關網頁。

在這個事件中,哪些行為是被允許的?哪些是不被允許的?“筆神允許相關合作方查詢、查看數(shù)據(jù),但是不能本地化存儲用于機器學習的素材?!标悩I(yè)炫說。

據(jù)筆神作文介紹,基于雙方的合作精神,筆神作文自己的技術團隊設計了完備的安全機制,正常情況下,可以防止黑客們進行爬蟲攻擊。而只有提供給合作伙伴學而思的接口是不設防的。

如何理解接口不設防?陳業(yè)炫介紹,筆神作文方面未對學而思設置反爬蟲措施?!叭粘5暮献髦校_放數(shù)據(jù)的一方通常需要限制訪問的行為,包括頻率和總量,給自己留以一定的反應時間,以防全部數(shù)據(jù)被快速抓走。”

記者多次通過官方電話嘗試聯(lián)系事件雙方,截至發(fā)稿前未得到回復。

AIGC伴生侵權風險 獲得數(shù)據(jù)授權是關鍵

AIGC火爆出圈,與之伴生的侵權風險問題也引發(fā)各界關注。國家網信辦今年4月發(fā)布的《生成式人工智能服務管理辦法(征求意見稿)》提到,提供者應當對生成式人工智能產品的預訓練數(shù)據(jù)、優(yōu)化訓練數(shù)據(jù)來源的合法性負責。用于生成式人工智能產品的預訓練、優(yōu)化訓練數(shù)據(jù)不得含有侵犯知識產權的內容。

中倫律師事務所合伙人王飛指出,以ChatGPT為代表的生成式AI,底層是一款通用的自然語言生成模型,通過互聯(lián)網海量的語料庫訓練,對語言文本進行概率建模來預測下一段輸出內容的概率,從而實現(xiàn)根據(jù)用戶輸入的文字內容生成對應文字回答的功能。

具體到本次學而思和筆神作文的“AI大模型數(shù)據(jù)竊取”風波,王飛表示,這個事件實質是授權合同違約糾紛,涉及到對于合同授權范圍條款的解釋。AIGC產品獲得訓練模型數(shù)據(jù)授權是合規(guī)的根基,授權的內容和范圍、使用的形式等一般會在簽訂授權合同時予以明晰,但鑒于AIGC作為新生產物,怎樣進行約定還要再進行探索,也會是未來AIGC產品糾紛產生的主要原因之一。

陜西華格律師事務所律師葛偉超也認為,這主要是基于合同目的而產生的問題。“雙方可能會因為合同中關于數(shù)據(jù)使用的范圍、方式、程度等條款約定不明產生不同理解,而對簿公堂?!?/p>

那么,構成AI大模型“數(shù)據(jù)盜取”行為,有哪些主要的判斷因素?

“AI數(shù)據(jù)抓取案件本質上與近年來司法判決的典型數(shù)據(jù)抓取案件并無差別,都需要判斷抓取數(shù)據(jù)行為是否損害數(shù)據(jù)持有者的商業(yè)利益與市場競爭優(yōu)勢、是否屬于未經許可使用他人勞動成果、是否違背商業(yè)道德、抓取數(shù)據(jù)是否有合理理由?!蓖躏w說。

在法律責任方面,葛偉超指出,利用抓取技術破壞他人市場競爭優(yōu)勢,具有并存在為自己謀取競爭優(yōu)勢的主觀故意,違反誠實信用原則,擾亂競爭秩序的數(shù)據(jù)抓取行為,可能構成不正當競爭行為。同時也直接違反了《數(shù)據(jù)安全法》相關規(guī)定。

“如果合作協(xié)議中有約定違約責任條款,則依其處理。如果沒有約定該種情形,則屬于侵權范圍,要承擔相應侵權責任,包括但不限于賠禮道歉、停止侵權、賠償損失等。”葛偉超說。

大模型的開發(fā)離不開海量數(shù)據(jù)(603138)助力。當前,數(shù)據(jù)來源的知識產權已經成為大模型發(fā)展的阿喀琉斯之踵。AI模型開發(fā)主體以何種方式、需要承擔何種程度的法律義務以獲取訓練數(shù)據(jù),是當前產業(yè)需要解決的核心問題。

值得關注的是,傳統(tǒng)的“授權許可模式”對于大模型的數(shù)據(jù)訓練存在天然困境,不僅在于實操層面難以落地,更在于對產業(yè)研發(fā)的長期影響。業(yè)界有觀點認為,可以將數(shù)據(jù)納入合理使用的范疇進行規(guī)制。

目前來看,日本、英國、歐盟等已對將數(shù)據(jù)挖掘作為合理使用的情形進行了立法確認:日本以“計算機信息分析”的名義規(guī)定了文本數(shù)據(jù)挖掘的著作權例外,英國同樣引入文本和數(shù)據(jù)挖掘的版權許可或例外情況,歐盟則選擇“非科研目的”例外的謹慎方案。中國業(yè)內也在探討是否可以通過數(shù)據(jù)的合理使用解決數(shù)據(jù)權屬帶來的問題。

對于如何厘清數(shù)據(jù)合理使用和保護的邊界,葛偉超認為,“首先,要明確擁有數(shù)據(jù)的經營者權利,即擁有數(shù)據(jù)所有權還是數(shù)據(jù)用益權。其次,明確數(shù)據(jù)抓取行為的性質。再次,明確該種行為損害的法益是數(shù)據(jù)財產還是競爭優(yōu)勢。最后,需要明確規(guī)制該種行為到底適用于競爭法、民法、或者著作權法的保護?!?/p>

標簽:

搶先讀

相關文章

熱文推薦

精彩放送

關于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權所有© 2011-2023  產業(yè)研究網  m.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內服務!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖ICP備2022009963號-13


麦盖提县| 汉沽区| 彭山县| 尼木县| 东乌| 宁夏| 景泰县| 无极县| 长阳| 襄垣县| 华宁县| 扶风县| 白银市| 景东| 双江| 台州市| 寿宁县| 河津市| 新津县| 东台市| 五指山市| 阜平县| 社旗县| 新安县| 武平县| 贵阳市| 仁寿县| 灵台县| 绥化市| 邯郸市| 安吉县| 图们市| 苍山县| 大新县| 沾化县| 公安县| 绥芬河市| 岱山县| 弥渡县| 北辰区| 乌苏市|