2月24日,自然语言处理领域的国际顶级会议ACL 2022论文录用结果公布。清华大学法学院申卫星老师指导并与计算机系刘知远老师团队、李涓子老师团队合作完成的1篇论文被ACL 2022 Findings录用。
以下是论文简介:
标题:LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
作者:姚峰* 肖朝军* 王晓智 刘知远 侯磊 涂存超 李涓子 刘云 申卫星 孙茂松 (*均等贡献)
类型:Long Paper
摘要:识别事实是法律判决的最基本步骤,因此,检测法律文本中的事件对于法律案件分析任务十分重要。然而,现有的法律事件检测(Legal Event Detection, LED)数据集只包含片面的事件类型,并且只有小规模的标注数据,这限制了 LED 方法及其下游应用的发展。为了解决这些问题,我们提出LEVEN,这是一个大规模的中文法律事件检测数据集,共包含108种事件类型。标注数据包含有8,116 篇法律文书和150,977个人工标注的事件提及。除了与罪名直接相关的事件类型,LEVEN 还涵盖了日常的一般事件类型。LEVEN 是最大的LED数据集,其数据规模是其他数据集的数十倍,这将极大地促进数据驱动的LED方法的训练和评估。我们的实验结果表明,LED具有挑战性,需要更进一步地研究来提升模型效果。此外,我们利用法律事件作为辅助信息来提升判决预测(Legal Judgment Prediction, LJP)和法律类案检索(Similar Case Retrieval, SCR)这两个下游任务的效果。融合事件的方法在低资源场景下的判决预测任务中实现了平均2.2个点的精度提高,在无监督法律类案检索任务中实现了1.5个点的平均精度提高,这表明了LED在法律人工智能应用中的基础地位。本文所使用的数据集、代码及预训练参数都将开源。
会议简介:
国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)在世界范围内每年召开一次,是自然语言处理/人工智能领域的顶级会议,被中国计算机协会(CCF)评级为A类会议,今年是第60届会议,将于5月22-27日在爱尔兰都柏林召开
*姚峰,清华大学法学院计算法学方向2020级硕士研究生
*肖朝军,清华大学计算机系2020级博士研究生