JuriBERT: Adaptation d’un modèle de langue masquée pour les textes juridiques en français

10 janvier 2024
Étant donné que certaines tâches spécifiques ne bénéficient pas de modèles linguistiques génériques pré-entraînés sur de grandes quantités de données, ce projet de recherche a cherché à étudier l’adaptation de modèles BERT spécifiques à un domaine en langue française au domaine juridique, dans le but ultime d’aider les professionnels du droit. Le projet a également exploré l’utilisation d’architectures plus petites dans des sous-langues spécifiques à un domaine.
L’ensemble de modèles BERT qui en résulte, appelé JuriBERT, a prouvé que les modèles pré-entraînés spécifiques à un domaine peuvent être plus performants que leurs équivalents généralisés dans le domaine juridique.
En particulier, l’équipe a appliqué JuriBERT pour accélérer la répartition des affaires entre les différentes formations de la Cour, une tâche qui était jusqu’alors effectuée manuellement et qui ralentissait considérablement les procédures de cassation. Le modèle a été en mesure de prédire avec précision la formation la plus pertinente pour le jugement sur la base du texte du mémoire d’appel. La recherche comprenait également des résultats préliminaires sur les moyens de calculer la complexité d’une affaire donnée, toujours sur la base du texte du mémoire d’appel.

Partenaires

Cour de Cassation, Ordre des avocats au conseil d’état et à la cour de cassation, HEC Paris, Polytechnique Paris, Hi!Paris

Restons en contact !