国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

來(lái)源丨新智元
非母語(yǔ)者寫的文章=AI生成?氣抖冷。

ChatGPT火了以后,用法是真多。

有人拿來(lái)尋求人生建議,有人干脆當(dāng)搜索引擎用,還有人拿來(lái)寫論文。

論文…可不興寫啊。

美國(guó)部分大學(xué)已經(jīng)明令禁止學(xué)生使用ChatGPT寫作業(yè),還開(kāi)發(fā)了一堆軟件來(lái)鑒別,判斷學(xué)生上交的論文是不是GPT生成的。

這里就出了個(gè)問(wèn)題。

有人論文本來(lái)就寫的爛,判斷文本的AI以為是同行寫的。

更搞的是,中國(guó)人寫的英文論文被AI判斷為AI生成的概率高達(dá)61%。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

這….這這什么意思?氣抖冷!

非母語(yǔ)者不配?

目前,生成式語(yǔ)言模型發(fā)展迅速,確實(shí)給數(shù)字通信帶來(lái)了巨大進(jìn)步。

但濫用真的不少。

雖說(shuō)研究人員已經(jīng)提出了不少檢測(cè)方法來(lái)區(qū)分AI和人類生成的內(nèi)容,但這些檢測(cè)方法的公平性和穩(wěn)定性仍然亟待提高。

為此,研究人員使用母語(yǔ)為英語(yǔ)和母語(yǔ)不為英語(yǔ)的作者寫的東西評(píng)估了幾個(gè)廣泛使用的GPT檢測(cè)器的性能。

研究結(jié)果顯示,這些檢測(cè)器始終將非母語(yǔ)者寫作的樣本錯(cuò)誤地判定為AI生成的,而母語(yǔ)寫作樣本則基本能被準(zhǔn)確地識(shí)別。

此外,研究人員還證明了,用一些簡(jiǎn)單的策略就可以減輕這種偏見(jiàn),還能有效地繞過(guò)GPT檢測(cè)器。

這說(shuō)明什么?這說(shuō)明GPT檢測(cè)器就看不上語(yǔ)言表達(dá)水平不咋地的作者,多叫人生氣。

不禁聯(lián)想到那款判斷AI還是真人的游戲,如果對(duì)面是真人但你猜是AI,系統(tǒng)就會(huì)說(shuō),「對(duì)方可能會(huì)覺(jué)得你冒犯了。」

不夠復(fù)雜=AI生成?

研究人員從一個(gè)中國(guó)的教育論壇上獲取了91篇托福作文,又從美國(guó)Hewlett基金會(huì)的數(shù)據(jù)集中摘取了88篇美國(guó)八年級(jí)學(xué)生寫的作文,用來(lái)檢測(cè)7個(gè)被大量使用的GPT檢測(cè)器。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

圖表中的百分比表示「誤判」的比例。即,是由人寫的,但檢測(cè)軟件認(rèn)為是AI生成的。

可以看到數(shù)據(jù)非常懸殊。

七個(gè)檢測(cè)器中,美國(guó)八年級(jí)學(xué)生寫的作文被誤判的概率最高才12%,還有兩個(gè)零誤判的GPT。

中國(guó)論壇上的托福作文被誤判的概率基本全部過(guò)半,最高誤判概率可達(dá)76%。

91篇托福作文中的18篇被所有7個(gè)GPT檢測(cè)器一致認(rèn)為是AI生成的,而91篇中有89篇,都至少被一個(gè)GPT檢測(cè)器誤判。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

從上圖中我們可以看出,被所有7個(gè)GPT誤判的托福作文在復(fù)雜度(Complexity)上明顯低于其它論文。

這就印證了開(kāi)頭的那個(gè)結(jié)論——GPT檢測(cè)器會(huì)對(duì)那些語(yǔ)言表達(dá)能力有限的作者有一定偏見(jiàn)。

因此,研究人員認(rèn)為,GPT檢測(cè)器應(yīng)該多看點(diǎn)兒非母語(yǔ)者寫的文章,樣本多了,才能消除偏見(jiàn)。

接下來(lái),研究人員把非母語(yǔ)者寫的托福作文扔到了ChatGPT里,豐富一下語(yǔ)言,模仿母語(yǔ)者的用詞習(xí)慣。

同時(shí)作為對(duì)照組,把美國(guó)八年級(jí)小孩兒寫的作文也扔到了ChatGPT里,把語(yǔ)言簡(jiǎn)化了一下,模仿非母語(yǔ)者的寫作特點(diǎn)。下圖就是修正后的新判定結(jié)果。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

我們可以發(fā)現(xiàn),情況來(lái)了個(gè)大掉個(gè)兒,豐富了語(yǔ)言的托福作文錯(cuò)判率直線下降,低至3%,最高也不過(guò)19%。不像之前基本全部過(guò)半的錯(cuò)判率。

與之相反,八年級(jí)小孩兒寫的作文的錯(cuò)判率直線上升,甚至還有一個(gè)GPT檢測(cè)器的錯(cuò)判率高達(dá)99%,基本全錯(cuò)。

因?yàn)椋恼聫?fù)雜度這個(gè)變量出現(xiàn)了變化。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

這里研究人員就得出了一個(gè)結(jié)論,非母語(yǔ)者寫的東西不地道,復(fù)雜度低,容易被錯(cuò)判。

這也就導(dǎo)向了一個(gè)技術(shù)問(wèn)題,同時(shí)也是一個(gè)價(jià)值問(wèn)題。以復(fù)雜度來(lái)判定AI還是人類是作者,是否合理、全面、嚴(yán)謹(jǐn)。

結(jié)果顯然不是。

以復(fù)雜度為判斷標(biāo)準(zhǔn)的情況下,非母語(yǔ)者吃了大虧,因?yàn)?,他們是非母語(yǔ)者(廢話)。

AI潤(rùn)色=人類寫的??

研究者認(rèn)為,加強(qiáng)語(yǔ)言多樣性不僅可以減輕對(duì)非母語(yǔ)者的偏見(jiàn),還能讓GPT生成的內(nèi)容繞過(guò)GPT檢測(cè)器。

為了證明這個(gè)觀點(diǎn),研究人員選取了2022-2023年間美國(guó)大學(xué)申請(qǐng)的入學(xué)論文題目,輸入到ChatGPT-3.5里,一共生成了31篇假論文。

GPT檢測(cè)器一開(kāi)始還挺有效,但是第二輪就不行了。這是因?yàn)?,在第二輪中,研究人員把這些論文又扔到ChatGPT里潤(rùn)色了一下,用一些文學(xué)性的語(yǔ)言提升了文本質(zhì)量。

這樣一來(lái),GPT檢測(cè)器的準(zhǔn)確度就從100%直降到了0%。如下圖:

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

經(jīng)過(guò)潤(rùn)色的文章復(fù)雜度相應(yīng)也上升了。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

與此同時(shí),研究人員又用了斯坦福大學(xué)145個(gè)期末項(xiàng)目報(bào)告的題目,讓ChatGPT生成摘要。

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

摘要經(jīng)過(guò)潤(rùn)色以后,檢測(cè)器判斷的準(zhǔn)確性繼續(xù)下降。

研究者再次得出結(jié)論,潤(rùn)色過(guò)的文章很容易被誤判,都是AI生成的,兩輪就是比一輪強(qiáng)。

GPT檢測(cè)器?還是欠練

離譜!最新研究:61%中國(guó)人寫的英語(yǔ)論文,會(huì)被ChatGPT檢測(cè)器判為AI生成的

言而總之,總而言之,各種GPT檢測(cè)器好像還是沒(méi)能抓住AI生成和人類寫作之間最本質(zhì)的區(qū)別。

人的寫作也分三六九等,僅靠復(fù)雜度判斷,不甚合理。

拋開(kāi)偏見(jiàn)因素不談,技術(shù)本身也亟待改進(jìn)。

參考資料:

https://arxiv.org/pdf/2304.02819.pdf

原創(chuàng)文章,作者:菜菜歐尼醬,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://www.xiubac.cn/index.php/2024/01/18/99f2cde72e/

(0)

相關(guān)推薦

兴文县| 西充县| 沂南县| 白银市| 霍邱县| 宜宾县| 平果县| 普兰县| 金沙县| 墨脱县| 梓潼县| 辽宁省| 崇明县| 吉水县| 大连市| 定西市| 珲春市| 武定县| 寿光市| 四川省| 夏河县| 天津市| 泗洪县| 上高县| 五原县| 班玛县| 独山县| 饶平县| 桐乡市| 新绛县| 花莲县| 麦盖提县| 岱山县| 定州市| 澳门| 永康市| 西华县| 勃利县| 江达县| 蒲城县| 灌云县|