Il y a quelques mois, en combinant une opportunité du marché et les compétences de notre équipe chez Coteries, nous avons lancé cedille.ai, le nouveau modèle de langue en français le plus grand (et le plus performant !) du marché. En d’autres termes, une IA capable de générer et de traiter des textes en français, le tout au service des entreprises ou des projets de recherche. Nous nous sommes dit qu’il était temps de vous raconter le début de cette nouvelle aventure !

Comment tout a commencé 

Au départ l’idée nous est venue lorsque nos ingénieurs en Machine Learning, spécialisés dans le “traitement du langage naturel” (NLP) ont remarqué que de grands modèles de langue étaient disponibles principalement en anglais ou en chinois, mais qu’aucun n’était disponible en français. D’autre part, nous discutions déjà avec des professionnels des médias et des clients existants pour générer des textes ou réécrire des articles. Après avoir testé les modèles d’IA existants, nous avons constaté que les résultats étaient effectivement insatisfaisants, surtout en français ou en allemand. Le modèle le plus connu et le plus pertinent pour la langue française à l’époque ne comptait que 1,5 milliard de paramètres (finalement plutôt petit comparé à GPT-3 en anglais, avec ses 175 milliards de paramètres). 

 

Nous avons donc saisi cette opportunité et délivré une solution en un temps record en mêlant les compétences de nos spécialistes en Machine Learning, design UX/UI, développement front-end et marketing digital. Cedille voyait ainsi le jour et fournissait de meilleurs résultats que GPT-3 en français, une chose exceptionnelle puisque le modèle est basé sur GPT-J avec ses 6,5 milliards de paramètres.

 

Positionnement parmi les autres modèles

Toxicité

Le niveau de toxicité du texte généré est une des limites présente chez les modèles actuels (à savoir si le contenu généré peut être perçu comme offensant ou inapproprié). Comme le montre nos benchmarks, Cedille est en fait moins toxique que GPT-3 sur ce point. Bien entendu, la prévention de la toxicité est un travail continu et nous continuons d’améliorer le score de toxicité de notre modèle, car aucun modèle n’est jamais complètement “non toxique”.

Langue

Les plus grands modèles de langue sont actuellement plutôt entraînés en anglais. Comme mentionné précédemment, GPT-3, le plus grand modèle multilingue, compte ainsi à lui seul 175 milliards de paramètres. Outre le français, d’autres langues européennes ne disposent pas de modèles de langue plus importants, ce qui signifie que la plupart d’entre elles s’appuient sur les modèles GPT-2 et 3. Le plus naturel pour nous était donc de commencer par le français.

Traction

Notre modèle a été lancé le 9 novembre 2021. La réaction du marché à ce lancement a dépassé toutes nos attentes! Des milliers de personnes ont testé le modèle, ont tweeté à son sujet et Cedille a même fait l’objet de nombreux articles et émissions sur Heidi News, 24heures, 20minutes, Bilan et Startupticker parmi les médias suisses. Le projet a même été mentionné sur Radio-Canada, une station de radio québécoise. Cedille a également été présenté par plusieurs influenceurs Twitch et Youtube dans le domaine tels que Science Etonnante, MonsieurPhi, MiCode, et Yannic Kilcher, représentant des millions de vues.

L'utilisateur de Twitter MrPhi parle de Cedille, invitant les gens à rejoindre un stream Twitch sur un test de Turing philosophique.

Ce premier modèle lancé par Coteries en novembre a connu un énorme succès : près de 20’000 utilisateurs se sont déjà inscrits en ligne, générant jusqu’à présent plus d’un million de contenus, que ce soit par le biais de la plateforme en ligne ou de l’API lancée en décembre. Cedille s’est déjà imposé comme une alternative qualitativement supérieure aux modèles GPT-3 ou GPT-J d’OpenAI.

Statistiques de l'application au 24 février 2022
Statistiques de l'application au 24 février 2022

Le modèle français n’est qu’une première étape et nous publierons bientôt notre modèle allemand. L’un de nos objectifs est de lancer un modèle de référence dans plusieurs langues européennes. Les prochaines pourraient être l’espagnol, l’italien ou le portugais.

Comment avoir accès à Cedille

Open source

Nous estimons que la recherche est un point important en Machine Learning. C’est pourquoi nous avons publié Cedille en modèle open-source. Chercheur, étudiant ou professionnel du domaine peut accéder librement à notre code directement sur Github ou sur Huggingface.

Plateforme de test

Tout le monde peut également accéder à une plateforme de test pour comprendre et essayer les compétences de Cedille. Il suffit d’aller sur la plateforme web à disposition et de commencer à générer des textes. Si vous manquez d’idées sur ce que vous voulez essayer, jouez simplement avec nos différents exemples!

Licence

Notre modèle peut également être fourni avec une licence et installé dans une infrastructure propre, contrairement à GPT-3. En quoi est-ce pertinent? Installer Cedille sur vos propres serveurs est un moyen de vous conformer à des règles strictes en matière de confidentialité comme la GDPR. C’est particulièrement pertinent pour les banques, les assurances ou les offices gouvernementaux qui ne peuvent pas utiliser de services basés sur le cloud.

API

Le moyen le plus simple d’exploiter librement tout le potentiel de Cedille est de demander un accès à notre API. L’accès à l’API de Cedille permet à quiconque d’intégrer le modèle dans ses propres applications. La connexion de votre application à notre API présente les avantages suivants :

  • une simplicité d’intégration
  • un accès continu à la dernière version de notre modèle
  • la génération de textes plus longs
  • plus de contextes

Demandez votre accès à l’API et parlez-nous de votre projet !

Votre avenir avec Cedille

L’exploitation de modèles open source en général n’est pas une mince affaire. Une grande expertise dans le domaine est nécessaire, et les coûts de formation des modèles sont importants. Pour mieux servir nos clients, nous pouvons mettre en œuvre nos propres modèles, formés spécifiquement pour les langues européennes, avec un dataset détoxifié.

Cedille convient parfaitement à toute entreprise qui a un besoin en génération de textes efficace pour rédiger, résumer, classer, optimiser le référencement (SEO), réaliser du “journalisme intelligent” et bien plus. Notez que nos compétences en Machine Learning peuvent également être utilisées pour implémenter notre propre modèle en l’adaptant à vos besoins, vous fournir un développement sur-mesure en IA ou construire un modèle NLP personnalisé pour vos projets d’entreprise.

Nous avons de grands projets pour les temps à venir avec Cedille. Alors restez à l’écoute et découvrez tout son potentiel par vous-même sur cedille.ai!