Hinweis: Dieser Artikel ist nur einer von mehr als 60 Abschnitten aus unserem vollst盲ndigen Bericht mit dem Titel: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Bitte laden Sie den vollst盲ndigen Bericht herunter, um Quellenangaben zu 眉berpr眉fen.
Verf眉gbare Datens盲tze
Das Contract Understanding Atticus Dataset (CUAD) ist ein Korpus mit mehr als 13.000 Labels in 510 kommerziellen Rechtsvertr盲gen, die unter der Aufsicht erfahrener Anw盲lte manuell annotiert wurden, um 41 Arten von Vertragsklauseln zu identifizieren, die bei der Vertrags眉berpr眉fung als wichtig erachtet werden.
Die Vertr盲ge stammen aus dem Electronic Data Gathering, Analysis, and Retrieval ("EDGAR")-System, das von der U.S. Securities and Exchange Commission (SEC) verwaltet wird ().
ContractNLI ist ein Datensatz f眉r Natural Language Inference (NLI) auf Dokumentenebene bei Vertr盲gen und enth盲lt 607 NDAs. Obwohl er mehr Vertr盲ge als der CUAD-Datensatz enth盲lt, sind diese erheblich k眉rzer, und der gesamte Vertragskorpus dieses Datensatzes ist insgesamt kleiner. Zudem enth盲lt er keine anderen Vertragstypen au脽er NDA. Ein umfassenderes Kontextwissen zu diesen Daten w眉rde die Leistung von Modellen verbessern, die auf ihnen feinabgestimmt werden.