2023年10月21日至10月25日,第32届信息和知识管理国际会议(CIKM2023)将于英国伯明翰举行。清华大学法学院计算法学课题组与清华大学计算机系合作完成的1篇full paper, 1篇resource paper被会议录用。
CIKM2023 full paper赛道共接收1472篇长文,仅仅录用354篇论文,长文录用率仅为24%;CIKM2023 resource paper赛道共接收81篇文章,仅仅录用20篇文章,resource paper录用率同样仅为24%。
以下是论文简介:
Full Paper:
标题:Leveraging Event Schema to Ask Clarifying Questions for Conversational Legal Case Retrieval
作者:刘布楼* 胡伊然* 艾清遥 刘奕群 吴玥悦 李晨亮 申卫星(*共同一作作者顺序随机排列),其中,胡伊然为清华大学法学院计算法学课题组2021级硕士研究生
摘要:
法律类案检索是一项特殊的 IR 任务,旨在检索与给定查询案例的相似支撑案例。现有的工作表明,对话式搜索范式可以改善用户在法律类案检索中的搜索体验。实用的对话式搜索系统的关键之一是如何提出高质量的澄清性问题来发起与用户的对话并了解他们的搜索意图。最近,大规模语言模型,例如 ChatGPT 和 GPT-4,在开放域 QA 和与人类对话方面都表现出了卓越的能力。我们将其应用到法律类案检索场景。然而,我们的初步研究表明,使用 SOTA LLM(例如 GPT-4)在法律对话搜索中生成澄清问题通常会遇到重复和低效内容等问题。为了解决这些问题,我们提出了 LeClari,它利用法律事件模式作为外部知识来指导大规模语言模型为法律对话搜索生成有效的澄清问题。LeClari由提示模块和新颖的法律事件选择模块构成。前者用法律事件定义prompt,以澄清问题的生成,后者通过对法律事件类型、对话上下文和候选案例的关系进行建模来选择潜在的事件类型。我们还提出了面向排名的奖励,并采用奖励增强最大似然(RAML)方法直接基于会话法律搜索系统的最终检索性能来优化 LeClari。两个广泛采用的法律案例检索数据集的实证结果证明了我们的方法与最先进的基线相比的有效性。
Resource Paper:
标题:MUSER: A Multi-View Similar Case Retrieval Dataset
作者:李庆泉* 胡伊然* 姚峰 肖朝军 刘知远 孙茂松 申卫星(*共同一作作者顺序随机排列),其中,李庆泉、姚峰为清华大学法学院计算法学课题组2020级硕士研究生,胡伊然为清华大学法学院计算法学课题组2021级硕士研究生
该论文为科技部重点研发“热点案件与民生案件审判智能辅助技术研究”项目产出。
摘要:
类案检索(SCR)是具有代表性的法律人工智能应用,在促进司法公正方面发挥着关键作用。然而,现有的SCR数据集在判断法律案件之间的相似性时仅关注事实描述部分,而忽略了其他有价值的部分(例如争议焦点部分)。此外,案件相似度通常仅通过事实描述的文本语义来衡量,这可能无法从法律知识的角度捕捉法律案件的全部复杂性。在这项工作中,我们提出了 MUSER,一个基于多维度相似度测量和综合法律要素知识的相似案件检索数据集。具体来说,我们选择三个视角(法律事实、争议焦点和法律法规),并为每个视角构建全面、结构化的法律要素标签体系,以实现对案件相似性的准确且涵盖知识性的评估。该数据集全部案件源自中国民事案件,包含 100 个查询案例和 4,024 个可指定案例。我们实现了多种用于法律要素预测的文本分类算法以及用于在 MUSER 上检索类似案例的各种检索方法。实验结果表明,纳入法律元素标签可以有利于 SCR 模型的性能,但仍需要进一步努力来解决 MUSER 提出的剩余挑战。源代码和数据集发布于 https://github.com/THUlawtech/MUSER。
Demo试用链接:http://thusimcase.online/casepred
CIKM2023为计算机信息检索与知识挖掘领域国际顶级会议,在TSINGHUA会议级别列表中被评为B级会议。