首页
IT圈
辣品
设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色
首页 > 科学探索> 科技前沿

ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

新智元 2023/7/1 21:53:11 责编:梦泽
评论:

AI 检测器有谱了,新算法实现 99% 的准确率。

此前,曾有不少人研发 ChatGPT 检测器,但没有一个能够真正有效鉴别。

来自堪萨斯大学的研究人员介绍了一种全新的算法,能够检测是否用 ChatGPT 作弊,准确率超 99% 。

最新研究已在 6 月 7 日,发表在 Cell Reports Physical Science 期刊上。

该论文的作者之一、堪萨斯大学化学教授 Heather Desaire 表示,

「我们努力创建一种易于使用的方法,这样,即便是高中生,只需很少的指导,也可以为不同类型的写作构建一个人工智能检测器。」

四大特征,99% 识别率

就像研究者所称,90% 准确性往往是不够的。但要获得更高准确性,取舍往往是普遍性。

这项研究中,研究人员选取了人类作者撰写的 64 篇「科学」杂志上的研究文章,涵盖从生物学到物理学的各个学科。

然后,将这些数据喂给 ChatGPT,并用这些数据生成了一个 128 篇人工智能文章的数据集。

这组训练数据,包含 1276 段聊天机器人示例段落。

研究者利用这些数据构建了 ChatGPT 检测算法。

在模型完全开发和优化后,他们还生成了两个测试集。每个测试集有 30 篇真实文章和 60 篇 ChatGPT 撰写的文章(总计 1210 段)组成了一个新的数据集,来测试最新算法。

实验结果显示,最新算法能够 100% 检测到 ChatGPT 写的整篇文章。

在段落层面上,其准确性较低,但仍令人印象深刻:该算法发现了 92% 的由人工智能生成的段落。

值得一提的是,论文称,从一些细节中就能发现,哪些内容是 ChatGPT 创作的。

通过对训练集中许多示例的手动比较,研究者确定了 4 类特征。这些特征有助于区分人类写作和聊天机器人。

(1)段落复杂性,(2)句子长度多样性,(3)标点符号,以及(4)流行词或数字

总的来说,人类作家写的段落更长、使用词汇量更大,包含更多的标点符号。

而且,还倾向于用「然而」、「但是」和「尽管」这样的词来修饰他们的陈述。而 ChatGPT 在引用数字,提及其他科学家方面没有那么具体。

在如下表分类中,人类擅长的内容要比 ChatGPT 多得多。

在这四类特征中,有两类(1 和 3)是 ChatGPT 产生的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值都明显低于人类。

研究者还发现,人类更喜欢改变句子结构。人类改变句子长度的次数超过 ChatGPT。人类也更频繁地使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区分特征可以更多地描述为「文体」选择。

一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 使用更多的单引号。

人类还使用更多的专有名词和 / 或首字母缩略词,还有数字。

这个由 Desaire 公司建立的这个模型,对于那些希望惩罚作弊的高中生的老师来说,是行不通的。

该算法是为学术写作而建立的,特别是人们在科学期刊上读到的那种学术写作。

这家公司表示,理论上你可以使用同样的技术来建立一个模型,来检测其他类型的写作。

不过,不得不考虑的一个事实是,一个人可以很容易地对一个聊天机器人的写作进行一些小调整,并让其更难被发现是作弊,事情就更复杂了。

尽管如此,研究人员将这项研究描述为「概念证明」,并表示未来可以开发一个更加稳定,准确的工具与更大的数据集。

如果人工智能继续以极快速度发展下去,谁也无法保证这样的检测方法,能否依然有效。

因为大型语言模型越接近复制人类语言文字的能力,识别机器人语言的痕迹就越困难。

AI 检测为何如此困难

自 ChatGPT 面世以来,已经被许多高校的学生和老师用在日常的作业和教学中。

然而,如果不加以限制,ChatGPT 将会变成史上最强大的作弊工具,可以帮助学生们写作业,甚至是完成考试论文。

为了反侦察,一款简单易用的检测器成为老师期盼的东西。一位 22 岁普林斯顿大学的学生 Edward Tian,就自行开发了一款检测器 ——GPTZero。

甚至,OpenAI 官宣推出一个新工具,名为 AI Text Classifier 的文件检测器。

但是,这些检测器的表现并不如人意。

检测出 AI 创作的内容听起来很简单。但当给你一封手写邮件和 ChatGPT 生成的邮件后,我们几乎无法辨别。

Turnitin 的人工智能副总裁 Eric Wang 称,用软件检测人工智能写作涉及统计学。从统计学的角度来看,人工智能与人类的区别在于它极其稳定地处于平均水平。

直白点讲,AI 水平很稳定。然而,实际上并非这样一个道理。

「像 ChatGPT 这样的系统就像是自动补全的高级版本,寻找下一个最可能要写的单词。这实际上就是它为什么读起来如此自然的原因。AI 写作是人类写作中最可能的子集。」

参考资料:

  • http://today.ku.edu/2023/05/19/digital-tool-spots-academic-text-spawned-chatgpt-99-percent-accuracy

  • https://gizmodo.com/chatgpt-detector-ai-kansas-research-paper-99-accuracy-1850519081

本文来自微信公众号: 新智元 (ID:AI_era)

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,签到赚金币兑豪礼

相关文章

关键词: 人工智能, ChatGPT
  • 杨元庆公布联想首款 AI PC:可运行个人大模型,最快明年 9 月上市
  • 微软砍掉工业元宇宙项目 Project Airsim,将人工智能战略转向 OpenAI
  • 高通发布 S7 / Pro 音频芯片:AI 性能提升 100 倍,支持 XPAN 连接和 192kHz 无损
  • 高通发布骁龙 8 Gen 3 处理器:CPU 性能提升 30%、GPU 提升 25%
  • 高通骁龙 X Elite 处理器发布:支持 Win12,可本地运行 130 亿参数 AI 大模型
  • 长城汽车宣布与科大讯飞合作,推出“首个汽车产业知识大模型”

软媒旗下网站: IT之家 辣品 - 超值导购,优惠券 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 魔方 酷点桌面 Win7优化大师 Win10优化大师 软媒手机APP应用

4617作文网淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男子给前妻转账 现任妻子起诉要回网友建议重庆地铁不准乘客携带菜筐月嫂回应掌掴婴儿是在赶虫子重庆警方辟谣“男子杀人焚尸”国产伟哥去年销售近13亿新的一天从800个哈欠开始男孩疑遭霸凌 家长讨说法被踢出群高中生被打伤下体休学 邯郸通报男子持台球杆殴打2名女店员被抓19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警两大学生合买彩票中奖一人不认账德国打算提及普京时仅用姓名山西省委原副书记商黎光被逮捕武汉大学樱花即将进入盛花期今日春分张家界的山上“长”满了韩国人?特朗普谈“凯特王妃P图照”王树国3次鞠躬告别西交大师生白宫:哈马斯三号人物被杀代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了房客欠租失踪 房东直发愁倪萍分享减重40斤方法“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火手机成瘾是影响睡眠质量重要因素考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼网友洛杉矶偶遇贾玲呼北高速交通事故已致14人死亡西双版纳热带植物园回应蜉蝣大爆发男孩8年未见母亲被告知被遗忘张立群任西安交通大学校长恒大被罚41.75亿到底怎么缴沈阳一轿车冲入人行道致3死2伤奥运男篮美国塞尔维亚同组周杰伦一审败诉网易国标起草人:淀粉肠是低配版火腿肠外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万杨倩无缘巴黎奥运男子被猫抓伤后确诊“猫抓病”春分“立蛋”成功率更高?记者:伊万改变了国足氛围奥巴马现身唐宁街 黑色着装引猜测

4617作文网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化