聊天还是作弊:ChatGPT会危及教育体系吗?

观点 | 2023-04-23| 42
聊天还是作弊:ChatGPT会危及教育体系吗?

导读

ChatGPT是一款聊天机器人,它可以产生令人信服和自然流畅的文本。但是,教育工作者质疑学生使用这类聊天机器人是否存在风险。学生可能会利用ChatGPT为他们写作文,甚至于作弊。教育界应该为此担忧吗?他们应该如何应对呢?

一览:

  • ChatGPT是一种聊天机器人,即一种人工智能程序,既能模拟与人对话,还会写出自然流畅的文章。
  • 教育界对学生使用聊天机器人表示担忧,学生可能会使用ChatGPT写老师布置的作文。
  • 虽然有软件工具可以判断文章是否是由聊天机器人写的,但是不可能做到100%的准确。
  • 识别一篇文章是否是由机器人写的,一般的方法是检查文中奇怪的措辞、不自然的语法或抄袭的段落。
  • 聊天机器人若合理使用,无论在教学中还是职场上都能发挥巨大作用。

聊天机器人并非新兴事物,已经存在了几十年[1, 2],早已在客户服务、营销、游戏、教育等领域广泛使用。第一个聊天机器人ELIZA是20世纪60年代由麻省理工学院的人工智能实验室开发的,目的是模拟心理治疗师,使用自然语言回答用户输入的心理咨询问题。60年过去了,如今的聊天机器人越来越先进,能使用人工智能来理解用户复杂的输入,并提供更自然、更智能的对话。随着技术的不断进步,聊天机器人将继续拓展其使用空间,能在医疗保健到金融等各种行业里大显身手[3]。

ChatGPT由旧金山的OpenAI公司开发,发布于2022年11月30日,是一款聊天机器人,一个能模拟人类对话的计算机程序。GPT原文全称是Generative Pre-trained Transformer——“可生成预培训转换器”。预培训是一种人工智能(AI)模型,即先对机器人进行大量文本数据训练,进而使其可以响应用户的输入要求。ChatGPT之所以受欢迎,是因为它确实能够写出令人信服和引人入胜的文章,这使它在写作、自动化客户服务和自然语言处理等领域备受欢迎[4]。由此教育界开始担心如果学生使用聊天机器人,是否会引发风险。近日,OpenAI发布了GPT-4。新版本比上一个版本先进多少?还有待观察。

01、学生会恶意使用聊天机器人吗?

作弊是教育中一个由来已久的问题[5]。基于人工智能的聊天机器人为有意作弊者提供了一条新的途径。使用它既可以完成平时作业,也可用于考试舞弊。学生可由此偷懒,对教师提供的教学材料置之不理,让机器人解数学题和多项选择题。聊天机器人的使用很简单,其操作与谷歌、必应等搜索引擎类似,输入问题即可得到答案(这两个搜索引擎不久后或将引入GPT[6])。这种操作是否算作作弊?只能由教师决定。

更有甚者,一些聊天机器人能解决专业性强的问题。例如,DeepL Translate是一种基于人工智能的在线语言翻译服务,它能又快又好地将文章、网站文档翻译成多种语言。有些聊天机器人能编写计算机代码,比如Codebots和Autocode。虽然这些聊天机器人的设计初衷是善意的,旨在帮助用户解决乏味重复的任务,但它们很可能会被学生用于作弊。

除了回答简短的问题外,经过预培训的人工智能机器人还能写出看似学识渊博的文章。Quillbot、Paperpal或WordAI等写作工具已经问世数年,可以神奇地将一篇写得不好的手稿更改为一篇颇为像样的学术论文。它们还能篡改他人文章,并逃避抄袭检测。更令人担忧的是,一些聊天机器人只要人工输入一些简短的提示,就能够在几秒钟内生成长篇大论,与人工创作的作品看似相差无几。

在ChatGPT中,学生可以轻松地调整各种参数,例如回复的内容长短、内容的随机性水平,或者所用的人工智能模型变体。生成的论文学生可以按原样使用,也可以亲自进一步修改,只需几分钟就能轻松地写出一篇扎实的文章。此外,重复多次为聊天机器人提供相同的题目,能生成多个不同版本(见图1)以供学生选择。学生可以拼凑各个版本中的部分内容,写出一篇独特的文章。如果学生这样使用机器人,目前是无法100%准确地检测出来的。

图片来源:PI France

注:向ChatGPT询问进化论。我们反复要求ChatGPT写一段关于进化论的文章。在前三次,我们提出的问题是一样的,但ChatGPT每次的回答都略有不同。在第四次,我们要求机器人启动专家模式,由其结果可以看出该软件使用专业术语的水平相当的高。

02、担心什么?

另一方面,就算学生不想抄袭,但一旦将聊天机器人生成的答案作为自己的作业提交,且不援引聊天机器人引用的资料作为参考来源,则抄袭实际上已经在他们没有意识到的情况下产生了。此类抄袭尤其难以检测,因为许多聊天机器人模型都包含随机性元素。此外,聊天机器人虽然能写出原创的句子或段落,但也会生成与原始资料高度类似的语句。因此,用户在使用聊天机器人时要避免不小心涉嫌抄袭。鉴于一些聊天机器人能专门查找参考文献[7],很快我们可能会看到写作机器人使用参考文献机器人来写文章!

但是机器人毕竟与人类不同,由于聊天机器人理解对话上下文的能力有限,可能会给出错误的答案或误导性的信息。此外,聊天机器人可能会表现出偏见歧视,例如以某种固定老套的方式或某种性别来使用语言,甚至可能给出侮辱性或有争议的错误信息[8-10]。微软于2016年发布的Tay聊天机器人是一个人工智能项目,旨在与推特上的人互动,从与真人的对话中学习,并随着时间的推移越变越聪明。然而在发布几周后,Tay因为开始发表有争议和冒犯性的言论被下线[11]。

图片来源:OpenAI

注:使用DALL E(OpenAI)生成的图像,人工输入的要求是“以Henri Rovel的风格,生成机器人学生和教授在教室的油画”。

最令人担忧的是,聊天机器人的使用会导致学生独立思考能力的丧失。随着聊天机器人越来越先进,能够为学生回答各种问题,不需要他们自己思考。这样学生的学习会变得很被动,既损害教学效果,也导致学生创造力下降。

03、教育界应该为此担忧吗?

聊天机器人看似新颖,令人兴奋,但这项技术已经存在了几十年。你可能在不知情的情况下常常阅读人工智能写的文章。例如,美联社和《华盛顿邮报》等新闻机构使用聊天机器人写作短新闻由来已久。美联社在2014年开始使用“语言大师Wordsmith” [12],而《华盛顿邮报》至少从2017年起就一直在使用内部聊天机器人Heliograf[13]。

在过去几年里,聊天机器人提供的答案质量大幅提高。现在人工智能生成的文章即使在学术界,也很难与人类亲自创作的文章区分开来[14]。虽然在学术界遭到反对,但ChatGPT在一些科学论文中甚至被列为正式作者[15],尽管这样做富于挑衅意味。

此外,虽然聊天机器人可以(或者说肯定会)被用来作弊[16, 17],但它们只是学生的又一个工具。即便在ChatGPT爆火之前,学生也有多种方法可以做作业作弊,比如从同学处复制答案,使用在线资源查找和抄袭答案,甚至雇人做作业。换句话说:只要想作弊,办法总是有的。

04、教育界该如何应对?

教育界的应对应该是采取新的规定,禁止学生滥用聊天机器人。这可以作为一门课程的要求,或者作为学校对全体学生的要求[18]。新规定会对学生起到威慑作用,让学生害怕作弊被发现的处理后果,还能提高学生和老师对聊天机器人这一问题的认识。然而,仅靠规定很难完全解决问题。

改变学生的测试方式是否可行?由于其知识库有限,聊天机器人一般不容易解决新颖、有创意的任务。但这种方案也有两个问题。一方面,基于人工智能的技术,尤其是聊天机器人,是一个突飞猛进,技术日新月异的领域。只要软件更新,老师调整作业形式的努力便会前功尽弃。另一方面,传统的测验和作文虽然能轻松地通过聊天机器人获得答案,但它们依旧是有效的教学手段,能检验出学生对知识点的理解、分析、概述能力 [19]。教师改进作业布置方式固然好,但不应是应对聊天机器人的唯一方案。

另一个有待探索的解决方案是统计水印[20]。统计水印是一种用于在数字信号中嵌入隐藏消息或数据的数字技术。对于聊天机器人,水印可以是一组由非随机概率选择的单词或短语,人眼无法看出,但计算机可以识别,由此便可检出聊天机器人生成的文本。

然而,统计水印存在多方面劣势,严重限制了其在教学中的使用。科技公司可能不愿意在软件中实施统计水印,因为如果他们的聊天机器人被用于恐怖主义或网络欺诈等行为,会带来声誉和法律风险。此外,只有当作弊的学生大段地复制粘贴聊天机器人文本时,统计水印才有效。如果聊天机器人生成的文章被学生编辑过,或者文本太短无法进行统计分析,则水印法无效。

05、如何检测人工智能生成的文章?

检测人工智能生成的文章的另一种方法是寻找文中不自然的措辞和语法。人工智能算法通常在表达想法的自然性方面有缺陷,因此可能会生成太长或太短的句子。此外,聊天机器人可能会缺乏自然的思想意识流,会在上下文中不恰当的使用某些单词或短语。换句话说,生成的内容缺乏人类写作的深度和微妙度[21],对于长篇文章来说尤其如此。上文提到聊天机器人的使用可能会涉嫌抄袭。因此,只要使用最常见的剽窃检测引擎,就能轻松地检测出人工智能生成的文本 [22]。

此外,还可以通过寻找“统计签名”来检测人工智能生成的文本。聊天机器人的基本逻辑是基于用户输入的题目,根据词语在同类语境中出现频次的高低选择措辞,每个词都是在概率上最有可能与上一个词共同使用的词语。这一点与人写作不同。人写作时,会根据自己的认知能力而不是根据概率来写,会产生不常见的单词联想,但依旧符合逻辑。简单地说,与聊天机器人相比,人类的回答会更具创造性。基于这一规律,麻省理工学院和哈佛大学使用openAI的语言模型GPT 2联合开发了巨型语言模型测试室(GLTR)。我们用了几篇学生写的短文和ChatGPT生成的短文来测试GLTR,结果GLTR轻而易举地分辨出了学生的作品(见下面的方框)!

自GLTR问世以来,许多其他人工智能检测程序也陆续出现,例如OpenAI Detector(发布于GLTR之后不久,原理类似),还有GPTZero——一个由一名大学生于2023年创建的企业。未来将有更多检测聊天机器人文本的新工具出现,更适合教育工作者的需求,类似于现在的抄袭检测引擎。

06、是作弊还是聊天?

最后,我们不要忘记,大多数学生还是愿意在不作弊的情况下完成作业的。首要的预防措施应该是让学生体会课程内容的重要性、有用性和趣味性,激励学生的学习热情[23]。计算器并没有让数学老师失业,谷歌并没有导致学校停课。同样,教育界肯定会适应聊天机器人。尽管对机器人的担忧是合理的,但很快机器人的价值会在许多方面凸显。在适当的框架和指导下,聊天机器人可以成为强大的教学和学习助手,以及企业的宝贵工具。

因此,教育工作者应该主动让学生熟悉聊天机器人,帮助他们了解这项技术的潜力和局限性,并教他们如何以高效、负责任和合乎道德的方式使用聊天机器人。

用统计签名检测聊天机器人生成的文章

实验设计:在巴黎学习生物技术学院2022年秋季学期开设的神经科学课堂上,我们收集了51名学生对以下问题的书面回答:“简要地阐述术语‘感受域’的定义,然后解释如何测量猫体感皮层神经元的感受域。”这个问题来自一场开卷考试,学生可在家中登录课程网站,在规定时间内完成。同时,我们要求ChatGPT对以上问题提供10个答案,然后使用GLTR来比较学生和聊天机器人回答的统计签名。

GLTR的工作原理:GLTR会按顺序查看文本中每个词,对比GPT-2聊天机器人(旧版ChatGPT)的选择和学生的选择。以这句话为例——Biology is great! (“生物学很棒!”),第三个词是great“很棒”,但如果让聊天机器人选择第三个词,它可能会首选a“一个”,因为在其单词库中a的排名最高,而great的排名是第126位。随后GLTR会根据每个词的排名生成直方图,由此构成一种简单的统计签名判别法:GPT-2生成的文本中,高排名单词比例会很高,但人类写出的文本中,低排名单词的比例会更高。

A栏:两个示例答案,一个来自学生,另一个来自ChatGPT。不同颜色对应着单词排名的高低。右边的直方图显示了二者的统计签名。可见人类的作答比聊天机器人包含更多的低排名单词。

B栏:我们将51名学生的直方图(蓝色)和聊天机器人10个答案的直方图(红色)放在同一个坐标系里,再次发现学生的写作和ChatGPT生成文本之间有明显的差异。换句话说,仅凭对统计签名的目测,就能确凿地判断学生没有使用ChatGPT来回答这个问题。

参考资料

1. Ina. The History Of Chatbots – From ELIZA to ChatGPT. In Onlim.com. Published 03-15-2022. Retrieved 01–19- 2023.

2. Thorbecke C. Chatbots: A long and complicated history. In CNN business. Published 08-20-2022. Retrieved 01- 19–2023.

3. Marr B. What Does ChatGPT Really Mean For Businesses? In Forbes. Published 12-28-2022. Retrieved 01–19- 2023.

4. Timothy M. 11 Things You Can Do With ChatGPT. In MakeUseOf.com. Published 12-20-2022. Retrieved 01–19- 2023.

5. Bushway A, Nash WR (1977). School Cheating Behavior. Review of Educational Research, 47(4), 623–632.

6. Holmes A. Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google. In The Information. Published 01-03-2023. Retrieved 01-19-2023.

7. Vincze J (2017). Virtual Reference Librarians (Chatbots). Library Hi Tech News 34(4), 5–8.

8. Feine J et al. (2020). Gender Bias in Chatbot Design. Conversations 2019. Lecture Notes in Computer Science, vol 11970. Springer, Cham.

9. Haroun O. Racist Chatbots &Sexist Robo-Recruiters: Decoding Algorithmic Bias. In The AI Journal. Published 10-11-2023. Retrieved 01-19-2023.

10. Biddle S. The Internet’s New Favorite AI Proposes Torturing Iranians and Surveilling Mosques. In The Intercept. Published 12-08-2022. Retrieved 01-19-2023.

11. Vinvent J. Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day. In The Verge. Published 03-24-2016. Retrieved 01-19-2023.

12. Miller R. AP’s ‘robot journalists’ are writing their own stories now. In The Verge. Posted 01-29-2015. Retreived 01-19-2023.

13. Moses L. The Washington Post’s robot reporter has published 850 articles in the past year. In Digiday.com. Posted 09-14-2017. Retreived 01-19-2023.

14. Else H (2023). Abstracts written by ChatGPT fool scientists. Nature, 613(7944), 423.

15. Stokel-Walker C (2023). ChatGPT listed as author on research papers: many scientists disapprove. Nature (retrieved online ahead of print on 01-23-2023).

16. Gordon B. North Carolina Professors Catch Students Cheating With ChatGPT. In Government Technology. Published 01-12-2023. Retrieved 01-19-2023.

17. Nolan B. Two professors who say they caught students cheating on essays with ChatGPT explain why AI plagiarism can be hard to prove. In Insider. Published 01-14-2023. Retrieved 01-19-2023.

18. Johnson A. ChatGPT In Schools: Here’s Where It’s Banned—And How It Could Potentially Help Students. In Forbes. Published 01-18-2023. Retrieved 01-19-2023.

19. Krathwohl DR (2002). A revision of Bloom’s taxonomy: An overview. Theory into practice, 41(4), 212–218.

20. Aaronson S. My AI Safety Lecture for UT Effective Altruism. In Shtetl-Optimized, The Blog of Scott Aaronson. Posted 11-29-2022. Retreived 01-19-2023.

21. Bogost I. ChatGPT Is Dumber Than You Think. In The Atlantic. Published 12-07-2022. Retrieved 01-19-2023.

22. Mollenkamp D. Can Anti-Plagiarism Tools Detect When AI Chatbots Write Student Essays? In EdSurge. Published 12-21-2022. Retrieved 01-19-2023.

23. Shrestha G (2020). Importance of Motivation in Education. International Journal of Science and Research, 9(3), 91–93.

关于作者

Julien Grimaud,巴黎学习生物技术学院生命科学助理教授

Pavla Debeljak,巴黎学习生物技术学院生物信息学助理教授

Frank Yates,巴黎学习生物技术学院工程学院研究主任

标签:, ,

相关推荐相关推荐

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

一夜涨超2364亿元 美东时间3月18日,特斯拉大涨超6%,创近6个月单日最大涨幅,收报173.8美元,最新总市值5524.97亿美元。公司市值一夜涨超328亿美元,约合人民币2364亿元。消息面上,当地时间3月16日,特斯拉宣布,将于3月22日在多个欧洲国家提高其M ...

观点 28 2024-03-19
完美故事的尾声,实物的再度崛起

完美故事的尾声,实物的再度崛起

美国财富分配变化已至,新中产开始崛起 【报告导读】在软着陆(通胀回落+经济避免于衰退)+人工智能技术进步+俄乌冲突后美国秩序重建的叙事下,2023年无疑是属于以美股为代表的金融资产的一年。市场忽视的是,在美国奇迹下各部门之间的分化。这一分 ...

观点 24 2024-03-19
AI手机,消费电子新篇章

AI手机,消费电子新篇章

手机端或有望形成新的流量入口,深刻影响手机厂商商业模式。 继AIPC后,我们看到AI手机在模型侧、硬件侧、操作系统及应用侧均存在产业升级趋势,未来AI手机或将重塑手机行业生态。摘要AI手机:把大模型装进手机,智能终端演进的新方向。AI手机指的是 ...

观点 26 2024-03-19
铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

聚焦精密连接组件领域 近期,广东铭基高科电子股份有限公司(以下简称“铭基高科”)更新了首次公开发行股票并在创业板上市招股说明书申报稿,保荐人为国信证券股份有限公司。格隆汇了解到,铭基高科致力于精密连接组件研发、生产、销售。截至招股说明 ...

观点 26 2024-03-19
全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

再不布局就没戏了 AI 的风又吹到了手机行业。近两日,在苹果、高通等巨头新动作影响下,AI手机概念成为资本市场“新宠儿”。截止午盘,福蓉科技封涨停板,水晶光电涨超4%,中科创达、思泉新材、江波龙等跟涨。全球手机厂商“新革命”这将是一次划时代的 ...

观点 26 2024-03-19
“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

短期难以持续走强 3月19日,猪肉板块震荡拉升,截至午盘,湘佳股份涨停,傲农生物涨超9%,神农集团涨超8%,华统股份、巨星农牧涨超6%,新五丰、牧原股份、唐人神、金新农、温氏股份等纷纷跟涨。消息上,生猪期货近期大涨,触及三个月高点。此外,农 ...

观点 28 2024-03-19
为什么行情会轮动成电风扇?

为什么行情会轮动成电风扇?

一方面,投资者们有很强的阿尔法思维惯性;另一方面,市场的增量资金主要是无偏资金。

观点 17 2024-03-19
油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

全球石油需求将在2024下半年达到历史新高。 3月19日,港股石油股走强,板块涨幅一度超过3%,随后有所回落。个股上,截止发稿,中国海洋石油、中国石油股份涨超1%,中国石油化工股份等跟涨。回顾来看,自今年1月底以来,港股石油股持续震荡上行,累计 ...

观点 18 2024-03-19
信达策略:季度普涨,年度主线关注周期&AI

信达策略:季度普涨,年度主线关注周期&AI

高频经济数据显示宏观经济运行结构分化较明显 核心结论2月以来,高频经济数据显示宏观经济运行结构分化较明显,房地产行业数据仍偏弱,经济预期边际改善不多。但伴随着流动性风险的缓解、利率下行带来长期配置资金的流入,以及自下而上的微观盈利反 ...

观点 17 2024-03-19
如何理解超预期的经济数据?

如何理解超预期的经济数据?

出口拉动工业增加值回升 主要观点1-2月经济数据亮眼,表现超预期。1-2月工业增加值累计同比增长7.0%,较去年12月提升0.2个百分点,两年复合增速为4.7%,较去年12月提升0.6个百分点。而1-2月服务业生产指数累计同比增长5.8%,两年复合增速为5.6%,较 ...

观点 16 2024-03-19