L'IA ce n'est pas que du texte généré
Au quotidien, quand nous parlons d'intelligence artificielle (IA), nous pensons souvent à ChatGPT et à ses capacités impressionnantes de génération de texte. Pourtant, l'IA générative n'est qu'une facette de l'intelligence artificielle. En réalité, l'IA englobe un large éventail de technologies qui transforment discrètement et depuis des années notre quotidien. Entre autres, les algorithmes de recommandation personnalisent notre expérience sur les réseaux sociaux, tandis que les systèmes de reconnaissance faciale déverrouillent nos smartphones. Ces applications reposent sur des techniques comme l'apprentissage supervisé ou la vision par ordinateur. Nos assistants vocaux comprennent nos requêtes grâce au traitement du langage naturel, et aux Etats-Unis, des voitures autonomes naviguent dans la circulation grâce à des systèmes d'IA sophistiqués.
Le développement de ces technologies d'IA, pour fonctionner efficacement, nécessite un entraînement sur de grandes quantités de données. Toutefois, dans de nombreux domaines, ces données sont rares, difficiles d'accès, sensibles car personnelles, peu représentatives des minorités ou protégées par le droit d'auteur, etc. Cette pénurie freine l'innovation et limite le développement de l'IA à certains secteurs.
Pour contourner cet obstacle, nous observons l'émergence d'une solution: les données synthétiques. Il s'agit de données artificielles, générées par ordinateur (pour ne pas dire par l'intelligence artificielle) qui imitent les caractéristiques des données réelles. Cette approche permet d'augmenter la taille des jeux de données disponibles, tout en préservant la confidentialité des informations sensibles. Dans des domaines comme la santé ou la finance, où la protection des données personnelles est essentielle, les données synthétiques ouvrent de nouvelles possibilités. Néanmoins, qu'elles soient réelles ou synthétiques, la qualité des données reste primordiale. Des données de mauvaise qualité produiront des résultats peu fiables, voire problématiques. Nous devons donc accorder une attention particulière à la préparation et au nettoyage des données, tout en restant vigilants face aux biais potentiels qui pourraient se glisser dans nos jeux de données.
Face à ces enjeux, l'open data représente une piste d'avenir intéressante. En rendant accessibles des données de qualité à toutes et tous, et plus particulièrement à la communauté scientifique, nous pouvons stimuler l'innovation et développer de nouveaux modèles d'IA de qualité. C'est en collaborant et en partageant nos ressources que nous pourrons exploiter les potentiels de l'IA dans divers domaines, au bénéfice de la société.
Cette semaine, je tiens à insister sur le fait que l'IA générative, bien que très médiatisée, n'est qu'un aspect de l'intelligence artificielle. En explorant les multiples facettes de cette technologie, nous pouvons mieux comprendre son potentiel et ses applications variées. Notre objectif devrait être de développer une IA qui répond aux besoins réels de notre société, en gardant à l'esprit l'importance des données de qualité et de l'accès ouvert à l'information.
Mes lectures de la semaine 39, du 23 au 29 septembre 2024:
- Quitter ou rester sur Mastodon: https://www.letemps.ch/cyber/donnees-personnelles/en-se-retirant-de-mastodon-la-confederation-deconsidere-les-alternatives-aux-geants-de-la-tech
Article co-écrit avec ChatGPT o1 et Claude Sonnet 3.5
Image générée par Dall-e