Nota: Este artigo 茅 apenas uma das 60+ se莽玫es do nosso relat贸rio completo intitulado: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Fa莽a o download do relat贸rio completo para verificar as cita莽玫es.
Conjuntos de dados dispon铆veis
O Contract Understanding Atticus Dataset (CUAD) 茅 um corpus com mais de 13.000 r贸tulos em 510 contratos comerciais jur铆dicos que foram rotulados manualmente sob a supervis茫o de advogados experientes para identificar 41 tipos de cl谩usulas contratuais consideradas importantes na revis茫o de contratos.
Os contratos foram coletados do sistema Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), mantido pela U.S. Securities and Exchange Commission (SEC) ().
O ContractNLI 茅 um conjunto de dados para infer锚ncia de linguagem natural (NLI) em n铆vel de documento aplicada a contratos, contendo 607 acordos de n茫o divulga莽茫o (NDAs). Apesar de conter mais contratos do que o conjunto de dados CUAD, esses contratos s茫o consideravelmente mais curtos, e o corpus contratual completo deste conjunto de dados 茅 menor. Al茅m disso, ele n茫o contempla nenhum outro tipo de contrato al茅m de NDA. Ter um conhecimento mais abrangente do contexto desses dados aprimoraria o desempenho dos modelos ajustados com base neles.