用AI来改试卷狗屁不通的论文也能评高分?根据调查显示,以自然语言处理为基础的人工智能论文评分系统,至少已经被美国的 21 个州正式引入到正式考试的评分工作当中。
而且,月圆的不仅仅只有国外,我国的「机器评卷员」也早已经投入到考场中。
早在 2016 年,我国教育考试中心就和科大讯飞成立了联合实验室,共同开展人工智能技术在阅卷、命题、考试评价分析等方面的研究。而且在 2017 年,湖北襄阳就已经正式在中考评卷工作中引入了该机器评分系统作为评分辅助手段。
这些机器评卷员的背后,有海量的资料作为参考,即使一天阅卷无数,也并不会因为疲劳以及不愉悦的情绪影响阅卷的效率和公正。
但事实真的是这样吗?最近,VICE 的一份报道显示,这些 AI 评卷员实际上并没有大家想象中的公正。
无可避免的算法偏见
AI 评卷,其实也没有大家想象中的那么公正。而首先第一个问题,就是算法偏见。
实际上,教育行业一直以来都在尽力消除对不同语言背景的学生所产生的潜意识偏见,但这个问题则在人工智能评卷系统上相当严重。
ETS(美国非营利性考试服务中心)所提供的 E-rater 机器评分系统,目前正在为 GRE、TOEFL 等考试提供评分参考。而 ETS 也是众多机器评分系统提供商中,极少数会提供偏差研究报告的。
ETS 新产品开发副总裁 David Williamson 表示:
其实评分系统存在算法偏见是一个普遍存在的问题,只不过大多数提供商都不会像我们这样对外公开。
在多年的研究里,ETS 发现机器评分系统会「偏爱」来自中国大陆的学生,所给的分数整体会比人类评卷员要更高。与此同时,像非裔美国人、阿拉伯语学生、西班牙留学生等群体则更容易受到来自机器的偏见,所能得到的分数会更低一些。
为此,ETS 在 2018 年对算法进行了深入的研究,最终发现了原因。
以 GRE(美国研究生入学考试)为例,来自中国大陆的学生由于篇幅更长,且会在论文中使用大量复杂的词汇,使得机器误认为论文的水平会高于平均水准,从而给出更多的分数。即使这些复杂的句型在人类评卷员看来和论文的主旨并无太多关联,甚至明显能看出是套用了预先背好的范文。
相反,由于非裔美国人、阿拉伯语留学生的语言风格会更偏向于简单和直接,导致在机器评分系统中很难获得较高的分数。
这些偏见实际上也直接反应在分数上,在测试时,一群水平相当的学生当中,E-rater 机器评分系统为中国大陆的学生给出的平均分达 1.31 分,而非洲裔美国人则只有 0.81 分。
当然,如果有参与 GRE 的读者也不用担心,因为该系统目前也只是给人类评分员「打一下辅助」而已,最终的论文成绩依旧是由人类来决定。
而除了 ETS 以外,新泽西理工学院也发现了自家所使用的一项机器评分系统存在着算法偏见。
新泽西理工学院此前通过一个名为 ACCUPLACER 的评分系统来判断一年级学生是否需要额外的辅导,但是后来经过技术委员会的研究发现,该系统对亚裔、西班牙裔学生所写的论文会存在偏见,并不能很公正地给出判断。
甚至「狗屁不通」的论文也能获得高分
如果说算法偏见只是影响分数高低,对考试公正影响还不算特别大的话,那么机器评分系统还有一个更严重的缺陷。
就是连胡编乱造也识别不出来。
在几年前,麻省理工学院的预科主任 Les Perelman 和一群学生利用论文语言生成器 BABEL 生拼硬凑出了数篇论文。
这几篇论文与正常的论文不太一样,虽然运用了很多高级词汇,复杂句型,但当中大部分内容都是前言不搭后语的,甚至可以用「狗屁不通」来形容。
他们将这几篇论文提交给了几个不同的机器评分系统进行评分,出乎意料的是,这几篇论文都获得了不错的成绩。
更让人想不到的是,几年后 VICE 也复制了该实验,结果也和之前惊人地相似。新泽西理工大学教授 Elliot 对此表示:
目前的论文评分系统更加强调语法的准确性、书面语言的标准性。但是对于学生敏锐的观点和特别的洞察却很难发现出来。然而这两点在人类评卷员看来,都是一篇论文最宝贵的地方。
目前,已经有不少教育领域的相关人士对这些机器改卷员提出质疑,而澳大利亚也已经宣布暂时搁置在标准考试当中引入机器评分系统。
来自 AI Now 研究所的 Sarah Myers West 表示,与在更广泛的人工智能应用领域中一样,想把算法偏见在评分系统中消除同样是一场持久战。
不过尽管如此,无论是来自新泽西理工大学教授的 Elliot 还是来自 AI Now 研究所的 Sarah Myers West,他们都还是发展机器评分系统的支持者。因为这确实是未来的一个发展方向,正如犹他州的考试发展评估员 Cydnee Carter 所说,通过机器对论文进行评估,不仅能为国家的教育系统省下大量的人力和物力,这项技术未来还能给学生和教师提供及时的学术反馈,极大地提高教育效率。
只不过在完全能做到公平公正之前,这些机器评卷员,还是只充当一个辅助的角色为妙。