天美传媒

Dec 18, 2024 5 min

Ensembles de donn茅es d'IA juridique disponibles

Advisor
Ensembles de donn茅es d'IA juridique disponibles

Note : Cet article est l'une des 60+ sections de notre rapport complet intitul茅 : The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Veuillez t茅l茅charger le rapport complet pour v茅rifier les citations.

Ensembles de donn茅es disponibles

Le Contract Understanding Atticus Dataset (CUAD) est un corpus de plus de 13 000 茅tiquettes dans 510 contrats juridiques commerciaux, annot茅s manuellement sous la supervision d'avocats exp茅riment茅s afin d'identifier 41 types de clauses juridiques consid茅r茅es comme importantes dans l'examen des contrats.

Les contrats sont issus du syst猫me Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), g茅r茅 par la Securities and Exchange Commission (SEC) des 脡tats-Unis ().

ContractNLI est un ensemble de donn茅es destin茅 脿 l'inf茅rence en langage naturel (NLI) au niveau du document sur des contrats, contenant 607 accords de non-divulgation (NDA). Bien qu'il contienne davantage de contrats que le jeu de donn茅es CUAD, ceux-ci sont consid茅rablement plus courts et le corpus contractuel total de cet ensemble de donn茅es est plus r茅duit. De plus, il ne comprend aucun autre type de contrat que les NDA. Une connaissance plus approfondie du contexte de ces donn茅es am茅liorerait les performances des mod猫les affin茅s sur celles-ci.