Toute entreprise active dans la génération de contenus en français qui avait jusqu’à présent surtout accès à des modèles entraînés en anglais peut désormais tirer parti du plus grand modèle francophone à ce jour, accessible publiquement en version Bêta sur cedille.ai.
Cedille.ai, le plus grand et le puissant modèle francophone, désormais accessible publiquement
Le modèle atteint aujourd’hui un score de perplexité – une mesure de performance clé de prédiction du prochain mot où le score le plus bas est le meilleur – de 4.5 comparé au meilleur système disponible publiquement (GPT-fr) qui présente un score de 12.9, positionnant Cedille comme près de 3 fois plus performant.
Le projet a été lancé avec le soutien du programme Google TRC et a été entraîné pendant plusieurs mois sur des Tensor Processing Units (TPUs), des puces spéciales créées de toute pièce par Google pour accélérer les calculs en intelligence artificielle. En s’appuyant sur cette infrastructure, l’équipe a pu assurer une empreinte écologique neutre pour le processus d’entraînement du modèle. Une réalisation majeure quand on sait que de tels processus nécessitent des quantités d’énergie énormes et donc des émissions de carbone élevées.
Cedille s’appuie sur la communauté d’EleutherAI, un mouvement populaire de chercheurs en IA open source. Comme Cedille est disponible au public, les chercheurs peuvent vérifier et reproduire les résultats et les expérimenter à leur guise.
“Avec Cedille nous redistribuons les cartes pour le français comparé aux modèles de langue anglophones – et avec encore d’autres modèles de langues à venir! Nous avons pu réaliser cet exploit grâce aux efforts de la communauté open source EleutherAI. En publiant notre modèle publiquement, nous sommes ravis de contribuer en retour à la communauté!”
Martin Müller, Senior Machine Learning Engineer chez Coteries
Exclusion des données toxiques et inappropriées
Pour comprendre le monde, les principaux modèles de génération de textes actuels basés sur de l’intelligence artificielle tels que GPT-3 sont entraînés à l’aide de grandes bases de contenus disponibles publiquement sur internet. Comme ces contenus contiennent également une bonne part de désinformation, de sexisme ou de racisme, il a été démontré que les modèles existants peuvent reprendre ces mêmes tendances discriminatoires dans la génération de textes.
Coteries s’est efforcée de publier un modèle libre de contenus inappropriés au maximum et de filtrer les données pour l’entraînement de Cedille. Tous les contenus toxiques ainsi que les contenus de faible qualité ont été supprimés. Ce processus a été rendu possible par une combinaison de Natural Language Processing et d’un examen manuel minutieux des échantillons de données.
En conséquence, Cedille génère maintenant des textes de qualité avec une réduction significative de 14.7% de contenus toxiques comparé au meilleur modèle existant jusqu’à présent (GPT-fr).
Des possibilités d’applications infinies avec Cedille
Du journalisme amélioré jusqu’à de l’autocomplétion en passant par des chatbots, Cedille offre un potentiel d’utilisation très étendu. Coteries propose son modèle et les compétences de son équipe pour créer des applications personnalisées, représentant une excellente opportunité pour toute entreprise désirant tirer le meilleur parti de l’intelligence artificielle pour générer des contenus en français.
“Avec Cedille, je suis ravi de pouvoir apporter la puissance de très grands modèles à la langue française. Il n’y a désormais plus besoin d’entraîner un nouveau modèle pour chaque tâche spécifique: il suffit de donner quelques exemples à Cedille!”
Florian Laurent, Senior Machine Learning Engineer chez Coteries
Vous pouvez tester Cedille sur cedille.ai.