在最近的一项研究中,意大利国际与高级研究学院(SISSA)的博士生耿明猛量化了ChatGPT对学术写作的影响。
图片|耿明萌(来源:耿明萌)
最近在arXiv[1] 上发布了一篇相关论文,标题为《ChatGPT 正在改变学者的写作风格吗?》(Is ChatGPT Transforming Academys’writing Style?)。
图| 相关资料(来源:arXiv)
该报告称,此前大多数类似研究都分析了特定段落或文章由ChatGPT 生成的可能性。然而,这个结果着眼于大局。
例如,一项成熟的运动不仅需要伟大的运动员,还需要球迷、教练、投资者、裁判员等。
眼下已经不需要大模型的普及了,这个球场甚至显得有些拥挤。在此背景下,耿明萌想从事足球裁判或数据分析师工作。
事实上,就在一年前,他还不是ChatGPT的粉丝,也无意跟随大模型研究热潮。
2023年夏天,耿明猛老师将之前的论文初稿提交给导师后,导师并没有直接修改原文,而是给出了一些简单的建议和意见,其中很多都是为了写关于问题。
这时,耿明猛考虑使用ChatGPT来修改和完善自己的论文,但很快就意识到ChatGPT的风格与人类的不同,包括单词的使用频率。
因此,他想从词频方面分析ChatGPT对人类论文的影响。耿明猛导师日常工作是天文学和统计学,没有自然语言处理方面的经验。
导师还奇怪为什么还没人用这么简洁明了的方法来研究ChatGPT的效果。所以我暂时搁置了这个想法,猜测是因为它不可行。
2023 年秋天,情况出现了好转。当时讲师经常出差宣传他的新书,没有时间讨论研究组的项目。
于是耿明猛决定亲自尝试一下。
我特别记得万圣节假期的前一天晚上,我们解决完所有数据问题后,我们旅行了两周以获得初步结果,然后又回来了一周。
也就是说,ChatGPT出现后,学术写作中某些词语的使用频率发生了明显的变化。
为了方便起见,耿明猛选取了当时arXiv 上最新的100 万篇论文摘要进行分析。这是因为,尽管摘要很短,但它比论文的其余部分更具表现力。
结果我们发现,近年来论文数量增长很快。例如,从2018年到2023年,向arXiv提交的论文超过100万篇。大约90%的论文来自三个领域:数学、物理和计算机科学。
当然,初步的发现也很有趣:比如“significant”的词频增加了近两倍,而“is”和“are”的词频则下降了约10%。
(来源:arXiv)
因此,耿明猛挑选了2022年arXiv上的前2万篇论文摘要,通过ChatGPT API进行修改和打磨,并分析ChatGPT的用词偏好。
发现2023年ChatGPT修改论文前后的词频变化与2022年的词频变化密切相关。然而,与2021 年相比,2022 年的词频变化几乎没有相关性。
(来源:arXiv)
如果你使用ChatGPT处理一些文章摘要,并且有一些未经ChatGPT处理的文章摘要的混合,你可以根据词频的变化来估计ChatGPT处理的文章摘要的比例是不是。那么,我们应该选择什么词呢?
为了回答这些问题,耿明猛提出了一个带有噪声项的模型,并证明在某些情况下选择更多的词并不是更好。
相反,您应该主要考虑两个标准: ChatGPT 处理前后的词频和变化率。
另外,针对不同类别、不同混合比例的摘要,所选用词也应有所不同。然后,通过标定和测试,上述理论分析也在仿真中得到了验证。
(来源:arXiv)
基于此,他开始根据实际的arXiv 摘要数据来估算ChatGPT 的影响。
这个分析是基于ChatGPT API的模拟输出对于每个提示都有不同的输出结果,因此结果是相对的。
以“纠正下列句子”的结果为基准,ChatGPT 纠正的“百分比”约为35%。
如果研究人员在使用ChatGPT时能够使用更精确的提示,那么ChatGPT对文章摘要的贡献率很有可能会超过100%。
不过,耿明猛更喜欢从“影响力”而不是“比例”来看待结果。
不同的提示会产生不同的输出,因此相同的利用率会产生不同的估计结果。考虑到真实的使用场景,很有可能你在使用ChatGPT后故意删除了一些痕迹。
尽管有些作者的写作风格确实受到了ChatGPT 的影响,但他们最终并没有使用ChatGPT 来完善他们的论文摘要。同时,其他大型模型中的词频可能相似但不相同。
(来源:arXiv)
总的来说,耿明猛还是认为用ChatGPT等工具润色翻译论文没有什么问题,但注意修改前后存在语义差异,需要这样做。
对于母语不是英语的研究人员来说,合理使用这些新工具固然可以促进公平性,但直接使用这些工具生成论文段落并不推荐。
研究ChatGPT对论文风格的影响可以帮助研究人员更好地使用类似的工具。
参考:
1.https://arxiv.org/pdf/2404.08627
管理及排版:何晨龙
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。