您所在的位置:首页 - 自研平台 - 法律数据标注平台

法律数据标注平台

开启法律数据智能化应用新路径


一、建设背景

在法治数字化浪潮下,人工智能技术的应用普及使数字社会对法律领域数据资源的需求方式产生了深刻变化,海量法律领域数据资源的科学管理与深度利用成为一大难题。传统的法律数据应用模式,多依赖人工经验处理和简易的文档操作,难以适应人工智能社会中的法律数据生产和应用特点。基于此,高度依赖于数据标注工作的法律数据结构化处理成为了破局之法。法律数据标注通过人工与机器结合的半自动或全自动方式,对裁判文书、法律条文、案例文本、合同文件等语料进行深度处理与细致归集,以便于法律数据资源的后续处理、分析与利用。而在2025年1月,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发的《关于促进数据标注产业高质量发展的实施意见》,更是为数据标注产业的发展指明了方向。该意见以习近平新时代中国特色社会主义思想为指导,深入落实党的二十大和二十届二中、三中全会精神,统筹发展和安全,将数据标注产业视为培育新业态、布局新赛道、构筑国际竞争新优势的重要领域。不论是对法律全行业发展,还是对基层司法实践,法律数据的结构化是当代法律研究迈向智能化的关键一步,其也在数字时代的法律行业变革中扮演着不可或缺的角色,是推动法治建设现代化的重要力量。经过清华大学智能法治研究院专业团队的深入调研、精心设计与反复测试,法律数据标注平台成功面世,欢迎有志于推动法律智能化的基层法律工作者、高校师生、行业律师与法律服务人员共同入驻,参与平台规则制定、功能优化并成为首批法律数据标注体验官。

二、平台介绍

法律数据标注平台是一款专注于法律数据结构化处理的开放、共享平台,以提升法律数据的质量与价值为核心目标,融入了相对成熟的半自动化标注工具,为用户提供一站式数据标注解决方案。无论是复杂的裁判文书、合同文本标注,还是法律法规的结构化分类处理,法律数据标注平台皆能高效应对。同时基于法律数据标注平台,未来还将致力于打造以法律数据资源交换与共享的智能法治生态系统,促进法律行业的数据流通与深层次利用。

(一)运行架构

法律数据标注平台的运行架构主要由用户层、标注业务层、数据管理层和技术支撑层构成。用户层涵盖了标注员、审核员、项目经理等不同角色,以满足多样化、个性化的用户使用需求;标注业务层集成了多种任务类型的标注工具和标签体系,支持各类法律数据标注工作;数据管理层主要用于存储和管理原始数据、标注数据、项目信息等平台资源,确保平台数据的安全存储与高效调用;技术支撑层则运用先进的人工智能算法、大数据处理技术,保障平台的稳定运行和标注工作的准确实施。

(二)核心功能

精准标注功能:平台根据不同标注任务类型,一一配备了专业的标注工具,支持划词标注、机器辅助标注等功能。标注工具可依据不同法律文本语料类别,对文本进行自动切分处理,精准定位并高亮关键信息。同时,平台对标注过程的实施进行实时校验,以保障法律数据标注的一致性和准确性,提升标注效率和质量。

数据管理:平台具备完善的数据管理功能,支持原始数据和结构化数据的导入、导出、备份和过程控制,用户可便捷管理标注项目数据。平台支持对正在执行项目中的数据标注情况进行实时跟进与展示,展示内容涵盖数据标注准确率、项目进度、标注员任务完成度、审核员任务完成度等重要信息,为标注项目的科学管理提供可视化支持。

标签管理:平台的标签管理模块为数据标注工作提供了全面、灵活且高效的标签资源支持。在标签管理模块,支持通过手动单条录入或批量导入的方式添加标签,平台可自动解析导入的文件并通过树状图形式展示标签结构以便用户查看和修改标签,同时支持重复标签自动核查。用户可选用平台自有标签资源并按需修改定制,也可在标注过程中根据项目推进情况随时查看和修改标签内容。平台提供标签自动推荐功能,助力提升标注效率与准确性。

智能审核机制:平台引入智能审核算法,对标注结果进行初步审核。智能审核算法可快速识别数据标注结果中的可能错误和不一致之处,如实体标注不恰当、关系标注不合理等,并给出修改建议。审核员可基于此进行二次审核,有效减轻人工审核工作负担,提高审核效率,确保标注数据高质量交付。

定制化服务:针对不同法律应用场景,平台在未来将提供定制化标注方案。依据用户具体需求,定制专属的标注模板、标签体系和标注规则,满足多样化的业务需求。

(三)多平台全景协同

法律数据标注平台与法律大数据科研平台共同作为清华大学智能法治研究院旗下的智能化基础设施,通过五大核心模块的深度协同与数据循环,构建起法律数据从采集、标注到应用的全链路闭环:

Ø 为法律资料库(文书标签数据/案例资源库/法律法规资料库)提供原始法律领域特色数据资源支撑;

Ø 法律数据标注平台完成结构化标注,并通过数据反哺机制与法律大数据科研平台资料库实时共享互通;

Ø 实证分析中心依托法律数据标注平台产出的法律结构化数据开展学术与实务研究,同时为全国学术合作网络提供研究素材;

Ø 法律智能服务基于文书要素提取、命名实体识别、事件关系抽取等功能孵化出更丰富的法律实用工具(类案检索工具/诉讼风险评估工具等);

Ø 基于平台成果联动高校、研究机构、实务部门等,推动全方位法律科技人才培养与成果辐射。

各平台不同模块间形成“数据支撑—标注优化—分析应用—成果转化”的良性循环,既满足法律实证研究需求,又赋能法律科技产品研发,最终实现法律数据价值的最大化利用。

法律数据标注平台.png

三、未来展望

近年来,国家对法律行业数字化转型的支持力度不断加大,出台了一系列政策鼓励人工智能与法律行业的深度融合。在政策和市场双轮驱动下,随着法律行业智能化需求的不断变化,法律数据标注平台也将持续优化升级。平台将继续加大研发投入,持续引入更符合法律智能化应用需求的智能技术,进一步提升法律数据标注的智能化水准;也将继续加强与法律行业各主体间的深度合作,拓宽应用场景,推动法律领域结构化数据能够在更多领域发挥价值;同时,基于前期用户反馈,将不断完善平台功能,为用户提供更优质的服务体验。

我们相信,在各方的共同努力下,法律数据标注平台将成为法律行业智能化发展的重要力量之一,助力实现法治建设与科技发展的有机融合。


合作联系:computational_law@tsinghua.edu.cn,请注明所在单位名称、联系人职务、合作需求、联系方式。