Transparence des modèles et qualité de la donnée avec Camille Lehujeur - Work with Data
💡 millefeuille.ai: le media pour comprendre les enjeux de l’IA et les mettre à profit dans notre société et nos métiers — par un collectif d’ingénieurs & d’entrepreneurs français.
Salut à tous !
Nous sommes heureux de continuer notre initiative, ❤️ Au coeur de l’IA, une immersion profonde dans le monde fascinant de l'intelligence artificielle avec des visionnaires du secteur 🙌.
Partage-nous tes impressions, tes questions, tes suggestions. Car cette aventure évoluera en fonction de tes retours et de ce que tu désires explorer ! 🙏
Aujourd'hui, nous partageons notre conversation avec Camille Lehujeur, co-fondatrice et CTO de Work with Data.
🎓 Après des études en ingénierie aux Ponts et Chaussées, Camille découvre le monde de la data à Berkeley en Californie.
👩💼 Camille rejoint par la suite l’équipe Data de Criteo à Londres : analyse de data, du machine learning, un peu de développement web et beaucoup d’automatisation. Au bout de cinq ans, elle quitte son poste de manager Northern Europe et co-fonde Work With Data avec pour mission de démocratiser l’accès à de la data fiable et qualitative.
🍰 De notre côté, on a adoré mieux comprendre la vertu de l’open data pour améliorer la confiance dans les résultats d’une intelligence artificielle.
Camille explique clairement et simplement les enjeux de la fiabilité de la data 👏
Au menu aujourd’hui :
💾 Le rôle central de la data en IA
🤖 Des tips pour juger et améliorer la qualité de sa data
🙂 La transparence et l’open science pour une meilleure fiabilité des résultats issus de modèles IA
👀 Où se renseigner - les sources recommandées par Camille
Si quelqu’un t’a transféré cette édition et que tu souhaites t’inscrire à millefeuille.ai c’est par ici :
🍰 MF : hello Camille, peux tu nous parler un peu plus de l’importance de la data en IA ?
👉 Camille :
Pour faire simple, l’IA ce sont des modèles entraînés sur de la data. Si la data utilisée n’est pas de qualité, la qualité de l’output du modèle sera mauvaise. C’est le principe du « Garbage In, Garbage Out », qui est valable pour tout type de AI, que ce soit de simples et classiques algorithmes de régression jusqu’à ceux de deep learning.
Pendant très longtemps, l’apprentissage de l’IA a été très model-centric, c’est-à-dire qu’on utilise des datasets déjà tout prêts et il faut trouver le meilleur modèle, alors que dans la réalité, mettre en place un dataset de training qui soit consistent, propre et de qualité demande beaucoup d’efforts et de temps et est une étape absolument nécessaire pour développer des modèles performants. La place primordiale de la data a cependant été plus mise en avant ces dernières années grâce au mouvement de «data-centric AI », soutenu notamment par Andrew Ng (fondateur de Google Brain research lab et co-fondateur de Coursera) (lien), qui consiste à se concentrer plus sur la data utilisée en input et sur comment l’améliorer de manière systématique et scalable et moins sur le modèle. Par ailleurs, plusieurs LLMs, développés sur de « petits » datasets public sélectionnés spécifiquement pour leur très haute qualité, ont réussi à avoir des performances proches de GPT-3 malgré leur taille bien inférieure, par exemple Koala, développé par le labo de recherche en AI à Berkeley.
Source : https://dcai.csail.mit.edu/
🍰 MF : Comment déterminer si la data est de bonne qualité en IA et quelles sont les conséquences d’une mauvaise qualité ?
👉 Camille :
Pour moi, la première étape est toujours de s’assurer de la fiabilité de la data.
Certaines questions à se poser pour cela : qui est à l’origine de cette data, comment celle-ci a-t-elle été générée et de quand date-t-elle? Vient-elle d’une source reconnue pour son expertise ou est-elle générée par un utilisateur lambda ? Par exemple, vous ferez peut-être plus confiance à une analyse financière de Bloomberg basée sur les derniers résultats d’une boite Y plutôt que celle faite par votre oncle qui n’y connait rien en finance mais a entendu quelqu’un en parler derrière lui dans le métro.
L’un des autres points nécessaires pour avoir une data de qualité est que celle-ci soit représentative du sujet traité. Une partie de la population est-elle manquante du dataset? La data a-t-elle un “blind spot”? Le dataset peut être biaisé ou incomplet ; les prédictions faites par l’IA le seront alors également. Par exemple, Amazon avait entraîné une IA pour aider au recrutement et avait utilisé des CVs qui étaient principalement masculins en training set. L’IA développée a ensuite montré des biais et discriminait les CVs féminins ce qui a conduit à l’abandon du projet. Les conséquences de ce type de mauvaise qualité sont énormes car l’IA peut alors être discriminatoire ce qui pose de gros problèmes éthiques (et légaux).
Le point de vue temporel est également très important lorsqu’on parle de représentativité car un training dataset qui serait représentatif de la réalité à un moment M peut très vite ne plus l’être car tout évolue et parfois très vite. Par exemple, les habitudes alimentaires de maintenant sont bien différentes de celles d’il y a même 10 ans seulement. Si le training dataset n’est pas mis a jour et les modèles re-entrainés, la performance de l’AI va diminuer, c’est ce qu’on appelle une dérive conceptuelle ou concept drift (pour en savoir plus, une bonne intro ici).
Source: https://arxiv.org/pdf/2004.05785.pdf**
Enfin finalement, une fois que tout cela est clair, il reste toujours un énorme travail de cleaning de la data, pour vérifier que les données sont correctes, avec un format consistent (par exemple si votre dataset contient une colonne avec des dates, vous ne devez pas avoir les formats YYYY-MM-DD et DD-MM-YYYY). Il faut aussi vérifier la proportion de données manquantes, la distribution des points de données pour voir s’il y a des outliers qui pourraient fausser les modèles, ou si certaines données sont dupliquées dans le dataset. Cette étape de cleaning et filtre de la donnée brute a par exemple fait diminuer de 5% la taille du dataset de training pour DALL-E 2.
🍰 MF : Tu nous parles de fiabilité de la data et la notion de fiabilité est justement au cœur des débats autour de l’AI notamment a cause des hallucinations que produisent les LLM. Comment pourrait-on améliorer la confiance dans les résultats d’une AI ?
👉 Camille :
Vaste sujet !
Personnellement, l’un des points importants pour moi c’est d’être capable d’expliquer, de comprendre et de monitorer les modèles de machine learning. Pour cela, la transparence qui est au cœur du mouvement de l’open science (que ce soit l’open source, l’open data ou autres) est absolument clé. L’idée est de détruire l’image de black-box qui retourne un résultat comme par magie sans donner d’explication pour au contraire être transparent sur tout ce qui a été fait pour obtenir ce résultat. Cette transparence s’applique à la manière dont le modèle a été entraîné et testé, mais aussi sur quelles données et comment celles-ci ont été nettoyées. Être ouvert ajoute une pression car il faut être capable de montrer et d’assumer tout ce qui a été fait mais c’est pour moi absolument nécessaire pour augmenter la confiance en IA. C’est d’ailleurs l’un des grands débats en ce moment parmi les développeurs de LLM avec par exemple OpenAI qui préfère ne pas donner de détails sur la manière dont GPT-4 a été entraîné pour des questions de compétitivité (article ici) alors que Meta a pris la décision opposée (ici LLama 2 details) ou encore Mistral AI qui explique que le fait d’être open sera un de ses points de différentiation.
Plus spécifiquement pour les LLMs, il y a une approche intéressante qui a été développée pour augmenter leur performance (et réduire leurs hallucinations) : la Retrieval Augmented Generation (RAG). Le principe des RAG est de récupérer de la data d’une source externe (qui peut être publique ou privée selon l’utilisation) et de la combiner avec les capacités habituelles d’un LLM. Quand l’utilisateur fait une requête, dans un premier temps toutes les données pertinentes vont être extraites de différentes sources, puis elles vont être ajoutées en tant que contexte à la requête pour le LLM. Grâce à ce système, le LLM peut notamment avoir accès à de la data à jour et cela permet également de dire précisément à l’utilisateur d’où provient l’information factuelle qui a été utilisée, ce qui résout les problèmes de traçabilité de la data des LLM. Avec ça, on pourrait ensuite utiliser les sources d’open data pour améliorer les outputs des LLMs et diminuer les problèmes d’hallucinations !
🍰 MF : canon merci Camille ! Est-ce que tu peux nous laisser les sources que tu recommandes pour aller plus loin sur le sujet ?
👉 Camille :
Un article pour approfondir sur les RAG : https://arxiv.org/pdf/2005.11401.pdf
Une personne a suivre: Cassie Kozyrkov qui poste régulierement et arrive a expliquer de maniere tres simple plein de concepts techniques concernant la data et l’AI
Un projet: The Algorithmic Justice League, organisation créee par Joy Buolamwini pour sensibiliser aux biais algorithmiques en AI et leurs impacts sur la société
Très belle semaine à tous !
— l’équipe millefeuille.ai
👋 Si tu veux voir la dernière conversation c’est par ici : “Comment utiliser l'IA pour mieux gérer ses finances personnelles avec Yoann Lopez” (Snowball).
Si tu as aimé l’édition, pense à cliquer sur le bouton ❤️ et à laisser un commentaire pour que plus de personnes puissent découvrir MillefeuilleAI sur Substack 🙏.
👉 Et c’est par ici pour nous suivre sur Linkedin et Twitter 👈