近日,自然语言处理领域的国际顶级会议ACL 2023论文录用结果公布。计算法学课题组由申卫星老师参与指导并与计算机系李涓子老师团队、刘知远老师团队合作完成的1篇论文被ACL 2023 Findings录用。
以下是论文简介:
标题:The Devil is in the Details: On the Pitfalls of Event Extraction Evaluation
作者:彭皓*,王晓智*,姚峰*,曾开胜,侯磊,李涓子,刘知远,申卫星(*代表共同一作)
类型:Long Paper
代码:https://github.com/THU-KEG/OmniEvent
图示:
简介:
事件抽取是一项旨在从文本中提取事件的重要任务,它包括两个子任务:事件检测和事件论元抽取。本文检查了事件抽取评价的可靠性,发现了三个主要的隐患:(1)数据预处理的差异使得同一数据集上的评价结果不能直接比较,但数据预处理的细节在论文中没有被广泛注意和说明。(2) 不同模型范式的输出空间差异使得不同范式的事件抽取模型缺乏比较的依据,也导致了预测和标签之间的映射问题不明确。(3) 许多仅有事件论元抽取的工作缺乏管道评估(pipeline evalution),使得它们很难与事件抽取工作直接比较,而且可能不能很好地反映模型在真实世界场景中的表现。
我们通过对最近的论文和实证实验进行全面的元分析,证明了这些陷阱的重大影响。为了避免这些隐患,本文提出了一系列补救措施,包括指定数据预处理、标准化输出和提供管道评估结果。本文开发了一个一致的评价框架来帮助实施这些补救措施,并公开了源代码(地址见上文),以促进公平的EE评价。
会议简介:
国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)在世界范围内每年召开一次,是自然语言处理领域的顶级会议,被中国计算机协会(CCF)评级为A类会议,今年是第61届会议,将于2023年7月9-14日在加拿大多伦多召开。
ACL 2023会议网址https://2023.aclweb.org/
本文共同第一作者姚峰为清华大学法学院计算法学方向2020级硕士生,导师为申卫星教授。