Mais qu'y avait-il avant ChatGPT ? avec Christophe Lanternier - Ubble
💡 millefeuille.ai: le media pour comprendre les enjeux de l’IA et les mettre à profit dans notre société et nos métiers — par un collectif d’ingénieurs & d’entrepreneurs français.
Salut à tous !
Nous sommes heureux de continuer notre initiative, ❤️ Au coeur de l’IA, une immersion profonde dans le monde fascinant de l'intelligence artificielle avec des visionnaires du secteur 🙌
Ta voix compte énormément pour nous. Partage-nous tes impressions, tes questions, tes suggestions. Car cette aventure évoluera en fonction de tes retours et de ce que tu désires explorer ! 🙏
Aujourd'hui, nous partageons notre conversation avec Christophe Lanternier, Head of Data chez Ubble (racheté par Checkout en mai 2022).
Au menu aujourd’hui :
🔦 Il y a 10 ans, c’était le buzz de l’IA non générative !
💡 Les avancées de l’IA non générative
⚙️ Que faire d’un modèle sans données?
👀 Où se renseigner - les sources recommandées par Christophe
🍰 On a adoré mieux comprendre l’évolution de la recherche en IA depuis 10 ans et aborder plus spécifiquement l’IA discriminative (non générative).
Merci Christophe pour ton éclairage 👏
Si quelqu’un t’a transféré cette édition et que tu souhaites t’inscrire à millefeuille.ai c’est par ici :
🍰 MF : hello Christophe, toi qui es dans le domaine depuis 10 ans maintenant, peux-tu nous commenter l’arrivée de l’IA générative en parallèle de l’IA discriminative (non générative), plus ancienne?
👉 Christophe :
On parle aujourd’hui énormément de l’IA générative, suite au buzz ChatGPT. En effet, la récente mise à disponibilité de ces algorithmes ouvre un grand nombre de nouvelles opportunités, tel l’automatisation totale ou partielle de certaines tâches: rédaction de mail, création de contenu créatif, amélioration de l’efficacité des centres d’opérations, etc… Les applications de cette IA générative commencent à peine à faire leur entrée dans des entreprises classiques (au sens non spécialisées en IA), par conséquent la valeur qu’elle va leur apporter reste encore à prouver.
L’IA non générative quand à elle, a fait son buzz il y a environ 10 ans, de façon moins spectaculaire que ChatGPT certes, mais a cependant marqué le début de l’ère de l’utilisation des data sciences en entreprise. Parmi les technologies qu’elle utilise, on peut citer le machine learning, le deep learning, le reinforcement learning, utilisées en général à des fins de classification (Y a t’il un chat ou chien sur l’image?) ou de prédiction (quelles seront mes ventes à la fin de l’année?)
Cette nouvelle ère a été accompagnée notamment par l’apparition de nombreux cabinets en data science, que ce soit au sein d’entreprises existantes (GAMMA au sein du BCG, QuantumBlack chez Mckinsey, Bluestone chez EY), ou par la création de nouvelles entreprises (Sicara, Quantmetry, Ekimetrics).
🍰 MF : Quelles sont les avancées récentes de l’IA discriminative (non générative) ?
👉 Christophe :
Pas d’innovation aussi fracassante que ChatGPT depuis la révélation des réseaux de neurone, mais un rythme extrêmement soutenu d’innovations très pertinentes, allant principalement dans deux directions :
A chaque cas d’application son algorithme: Que l’on veuille faire tourner un algorithme dans un navigateur web ou sur le cloud, que les données d’entrée soient des images satellites ultra HD, ou des images de visages en basse définition, il est de plus en plus fréquent de trouver pour un use case donné, un algorithme dédié (qu’il faudra cependant la plupart du temps ré-entrainer avec ses propres donnée).
Plus rapides: Si la taille des réseaux (nombre de paramètres) a tendance à augmenter, un certain nombre d’outils extrêmement performants permettent de diviser leur temps de calcul par plusieurs ordre de grandeur. Ces outils se sont largement démocratisés au cours des dernières années, ils deviennent de plus en plus simples à mettre en place, et de plus en plus efficaces. Je pense notamment à ONNX Runtime pour ne citer que le plus célèbre.
Cependant, en entreprise, la problématique reste la même, ce n’est pas l’algorithme lui-même qui va faire la différence entre un cas d’usage qui fonctionne et un cas d’usage qui ne fonctionne pas. Les aspects clés dans la réussite d’un projet d’IA reste, à mon sens, les suivants:
la formulation du problème d’un point de vue produit (mon algorithme répond-il au problème posé?)
la qualité et la quantité de donnée (ma donnée est-elle bien annotée, suffisamment hétérogène, en suffisamment grande quantité?)
la rigueur du processus de développement et d’amélioration de l’algorithme (mon code peut-il être mis en production? Suis-je capable d’améliorer les performances de mon algorithme de façon reproductible en situation de production?)
Le choix de l’algorithme en lui-même ne sera en général responsable que de quelques points de pourcentage de performance (qui peuvent avoir une valeur énorme), et potentiellement d’une réponse plus rapide.
🍰 MF : Une question qui nous taraude l’esprit, pouvons-nous travailler avec un modèle d’intelligence artificielle non entrainé?
👉 Christophe :
C'est la grande révolution des algorithmes comme chatGPT: pour la première fois, une unique API peut être utilisée pour une grande variété de problèmes, sans ré-entrainement, avec des performances sans précédent.
Mais si l'on en revient aux algorithmes plus traditionnels, comme expliqué précédemment, il est de plus en plus fréquent de trouver un algorithme répondant bien au contexte du problème posé, il faut avoir beaucoup de chance (ça ne m’est personnellement jamais arrivé) pour que les performances soient bonnes sans procéder à un ré-entrainement de l’algorithme sur ses propres données.
De manière générale, la démarche est la suivante: on précise le problème, on trouve un algorithme adéquat, on choisit la donnée, on entraine l’algorithme, et on voit ce que ça donne.
Cependant, qu’en est-il en l’absence de donnée?
On a deux choix:
On peut utiliser un algorithme entrainé sur des données à peu près similaire. Dans certains cas d’usage communs à de nombreuses entreprises (par exemple la détection de visage), cela peut donner des résultats très satisfaisants.
Utiliser un modèle datant d'avant la révolution des modèles apprenant, à savoir avant les années 2000. Le charme de l'ancien!
Si cela peut sembler rétrograde, il faut garder en tête que l’automatisation de tâches à toujours été un domaine important pour la recherche scientifique, et il a pu arriver qu’avant les années 2000, certains algorithmes non apprenants soient d’une efficacité redoutable, et puissent encore aujourd’hui rivaliser avec leurs homologues modernes en terme de précision et de robustesse. Le fait que ces algorithmes aient été développés à une époque où la puissance de calcul disponible était bien inférieure à celle d’aujourd’hui les rend également beaucoup plus rapides et économes.
Pour prendre un exemple très concret, c’est exactement ce qui nous est arrivé au début d’Ubble. Nous étions à la recherche d’un algorithme qui permettrait de “croper” (découper précisément n’importe un document d’identité dans une image et le remettre à plat, cf images ci-dessous), n’importe quel document d’identité, dans n’importe quelles conditions d’éclairage et de résolution, le tout en temps réel (à savoir moins de 150 ms de calcul par image).
Le problème: il n’existait pas (à l’époque) d’algorithme pré-entrainé spécialisé sur cette tache, et encore moins de base de données publique de documents d’identité (et pour cause).
Nous nous sommes donc tournés vers une technologie datant des années 90, que nous avons adaptée à notre cas d’usage, et qui a finalement parfaitement répondu au problème. A tel point qu'elle a d'ailleurs tourné pendant plusieurs années en production.
🍰 MF : merci Christophe ! Est-ce que tu peux nous laisser les sources que tu recommandes pour aller plus loin sur le sujet ?
👉 Christophe :
Deux excellent podcasts, made in France:
Data driven 101 par Marc Sanselme, podcast IA & Data. Beaucoup d’exemples très concrets et pertinents des applications de l’IA en entreprise.
DataGen par Robin Conquet, plus centré sur la partie Data Analytics. C’est ce podcast qui m’a mis le pied à l’étrier pour comprendre l’éco-système des data analytics lors de ma prise de poste de head of data.
Un livre lu récemment:
Toxic Data de David Chavalarias: “comment les réseaux manipulent nos opinions”. Un peu angoissant mais très éclairant sur l’exploitation des données faite par les réseaux sociaux, et la menace que cela représente pour nos démocraties.
Très belle semaine à tous !
— l’équipe millefeuille.ai
👋 Si tu veux voir la dernière conversation c’est par ici : “Améliorer la réussite des traitements de fertilité grâce à l'IA” avec Jérôme Chambost (Apricity).
Si tu as aimé l’édition, pense à cliquer sur le bouton ❤️ et à laisser un commentaire pour que plus de personnes puissent découvrir millefeuille.ai sur Substack 🙏.
👉 Et c’est par ici pour nous suivre sur Linkedin et Twitter 👈