2024年度中国法律智能技术评测(CAIL2024)在最高人民法院与中国中文信息学会的指导下圆满落幕。本次赛事吸引了来自海内外的669支队伍参与,涵盖了高校、企业和组织,竞争激烈,创新亮眼。
清华大学法学院与诺亚方舟实验室合作参与了CAIL2024的三个赛道的角逐。清华大学法学院申卫星教授、刘云博士作为指导老师,2021级硕士毕业生胡伊然、2023级硕士研究生杨健辉、刘黄海、2024级硕士研究生程荣鑫参与的队伍在二审改判类案检索与原因预测赛道、法律咨询对话生成赛道获得冠军,在多人多罪判决预测赛道获得亚军。
本次参赛过程中,清华大学法学院师生们充分发挥自身在法学领域与计算机领域的交叉学科优势,抓住命题解题切入点,将法律知识融入到模型设计中。
在法律咨询对话生成赛道中,赛队抓住“自研基座模型--问题转译--知识检索-模型作答”的工作流。
· 该赛道的基座大模型为清华大学智能法治研究院独立研发的拥有自主知识产权并通过国家网信办算法备案审查的法律大模型。
· 问题转译分为案情总结、提问澄清、要件构建等三个步骤。利用大模型根据历史对话和当前提问总结案情,过滤历史对话中的假设性案情,并更新被否定的案情。根据案情和历史对话细致分析当前用户提问,将提问改写为意图明确、表意清晰的提问。同时根据案情和提问构建本次对话中涉及的法律要件,以准确地检索相关知识。
· 为辅助模型作答,我们收集了法律法规、法律咨询、实务指南和学界观点等法律垂域知识并构建知识库进行检索。知识库分别采用文本和嵌入向量的形式保存知识。因此,知识库检索采用多路召回策略。对每一个知识库,将提问和法律要件作为输入,分别使用BM25检索算法和向量相似度检索算法得到若干候选数据,并使用重排模型予以重排序。
· 模型作答分为法律适用、撰写初稿、风格对齐等三个步骤。在法律适用部分,根据真实法律咨询流程建模作答工作流,引导大模型严谨进行法律适用和多步法律推理。具体而言,将案情要素和法律法规作为输入,引导模型推理咨询涉及的法律关系;再将法律咨询数据、实务指南数据和学界观点数据作为输入,引导模型理解类似场景下的法律适用逻辑;按照三段论推理逻辑,将法律法规和法律适用逻辑作为大前提,案情作为小前提,完成针对用户提问的法律适用。根据法律适用的过程及结论,引导大模型按照三段论逻辑详细、全面地撰写答复初稿。最后,在初稿的基础上进行风格对齐,根据历史回答以及涉及法律法规的法律要件,引导大模型将答复初稿与历史回答的风格对齐。同时,根据赛道评测要求,要求模型着重将法律法规中的法律要件融入到回答中。
在法律咨询对话生成赛道中,赛队针对复杂多轮对话上下文,构建提供清晰、准确法律咨询建议的人工智能模型。通过分析赛题数据,我们提出了“问题转译-知识检索-模型作答”的工作流,显著提高了LLM在复杂对话场景中的法律咨询问答能力。
获奖成员们于1月10日下午在清华大学自强科技楼1号楼13层多功能厅参加了颁奖仪式,并与其他获奖团队交流经验。