天美传媒

Dec 18, 2024 5 min

Conjuntos de datos de IA jur铆dica disponibles

Advisor
Conjuntos de datos de IA jur铆dica disponibles

Nota: Este art铆culo es solo una de las m谩s de 60 secciones de nuestro informe completo titulado: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Descargue el informe completo para consultar las citas.

Conjuntos de datos disponibles

El Contract Understanding Atticus Dataset (CUAD) es un corpus de m谩s de 13.000 etiquetas en 510 contratos legales comerciales que han sido etiquetados manualmente bajo la supervisi贸n de abogados con experiencia para identificar 41 tipos de cl谩usulas legales consideradas relevantes en la revisi贸n de contratos.

Los contratos se recopilan del sistema Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), mantenido por la Comisi贸n de Bolsa y Valores de EE. UU. (SEC) ().

ContractNLI es un conjunto de datos para la inferencia de lenguaje natural (NLI) a nivel de documento sobre contratos, que contiene 607 (NDAs). A pesar de incluir m谩s contratos que el conjunto de datos CUAD, estos son considerablemente m谩s cortos y el corpus total de contratos de este conjunto de datos es m谩s reducido. Adem谩s, no contiene ning煤n otro tipo de contrato que no sea el NDA. Disponer de un conocimiento m谩s amplio del contexto de estos datos mejorar铆a el rendimiento de los modelos ajustados con ellos.