JuriBert

Étant donné que certaines tâches spécifiques ne bénéficient pas de modèles linguistiques génériques pré-entraînés sur de grandes quantités de données, ce projet de recherche a cherché à étudier l’adaptation de modèles BERT spécifiques à un domaine en langue française au domaine juridique, dans le but ultime d’aider les professionnels du droit. Le projet a également exploré l’utilisation d’architectures plus petites dans des sous-langues spécifiques à un domaine.
L’ensemble de modèles BERT qui en a résulté, appelé JuriBERT, a prouvé que les modèles pré-entraînés spécifiques à un domaine peuvent être plus performants que leurs équivalents généralisés dans le domaine juridique.
En particulier, l’équipe a appliqué JuriBERT pour accélérer l’attribution des affaires entre les différentes formations de la Cour, une tâche qui était jusqu’alors effectuée manuellement et qui ralentissait considérablement les procédures de cassation. Le modèle a été en mesure de prédire avec précision la formation la plus pertinente pour le jugement sur la base du texte du mémoire d’appel. La recherche a également permis d’obtenir des résultats préliminaires quant à la manière de calculer la complexité d’une affaire donnée, toujours sur la base du texte du mémoire d’appel.

Les modèles de JuriBERT sont entraînés sur 6,3 Go de texte juridique français brut provenant de deux sources différentes : le premier ensemble de données est extrait de Légifrance et l’autre consiste en des décisions de justice anonymisées et des plaidoiries du demandeur provenant de la Cour de cassation. Ce dernier contient plus de 100 000 documents longs provenant de différentes affaires judiciaires.
Les modèles JuriBERT sont pré-entraînés en utilisant la Nvidia GTX 1080Ti et évalués sur une tâche en aval spécifique au domaine juridique qui consiste à assigner les plaidoiries du demandeur à une chambre et à une section du tribunal. Alors que JuriBERT_SMALL surpasse les modèles BERT du domaine général (CamemBERT_BASE et CamemBERT_LARGE), les autres modèles ont une performance similaire.

Les quatre modèles JuriBERT sont mis gratuitement à la disposition de la communauté des chercheurs en suivant le lien ci-dessous.

DATASET Publication Demo