Vos données sont-elles prêtes pour GenAI ?

Listen to this blog

Disclaimer

Il ne fait aucun doute que GenAI est en plein boom. Il est difficile de dire si elle a atteint son apogée, mais cette technologie a le potentiel de bouleverser fondamentalement notre façon de travailler et de vivre. Le nombre de cas d’utilisation de GenAI et de domaines dans lesquels elle peut apporter une valeur ajoutée est infini et transformateur. Mark Cuban estime que le premier milliardaire sera l’innovateur qui optimisera la monétisation de l’IA avant tout le monde. McKinsey and Company estime que GenAI aura un impact sur la productivité équivalant à 2,6 à 4,4 billions de dollars.

Mais la question demeure : les humains et l’IA travailleront-ils ensemble de manière harmonieuse et comment les individus monétiseront-ils leur créativité dans un écosystème dominé par des modèles GenAI en évolution rapide ? La voie à suivre pour répondre à ces questions sera pavée de défis, d’échecs et d’innovations. Les organisations doivent se préparer aux perturbations futures. La meilleure façon d’y parvenir est de s’assurer que vos données, le plus grand atout d’une organisation dans ce nouvel écosystème, sont prêtes pour l’avenir.

L’année dernière, les premiers modèles de langages étendus (LLM) tels que ChatGPT-3, Microsoft Copilot et Google Gemini ont vu le jour, ce qui a donné lieu à une explosion des expérimentations GenAI. Cette année, ces modèles expérimentaux seront perfectionnés et transférés en production. Les organisations doivent avoir accès à divers ensembles de données de haute qualité pour faire évoluer ces modèles avec succès et fonctionner efficacement en production. Les organisations peuvent constater que l’obtention de ces données n’est pas facile et qu’il reste encore beaucoup à faire. Selon l’enquête Data & Analytics de Wavestone , seulement 5 % des organisations ont mis en œuvre l’IA générative en production à grande échelle.

Si les entreprises ont plus de succès avec l’IA traditionnelle, l’IA générative est une toute autre affaire, avec des besoins en données différents. L’IA traditionnelle repose sur l’apprentissage supervisé, où des ensembles de données organisées sont utilisés pour former des modèles afin d’identifier des tendances et des résultats. Alors que l’IA GenAI exploite à la fois des données structurées et non structurées et crée des données par elle-même au lieu de simplement prédire les résultats. Cet apprentissage n’est pas supervisé, de sorte que le modèle apprend à partir de toutes les données auxquelles il peut accéder. L’IA GenAI ressemble davantage à une boîte noire complexe dans laquelle les data scientists ne comprennent pas pourquoi les modèles prennent les décisions qu’ils prennent. Ce manque d’observabilité rend primordial que les modèles GenAI aient accès aux données de la plus haute qualité.

Application de GenAI pour améliorer les performances de l'entreprise

L'application GenAI dans l'entreprise se concentre sur le réglage fin des modèles tiers prêts à l'emploi comme ChatGPT. La création de modèles LLM uniques et volumineux n'est pas économiquement réalisable pour la plupart des organisations. C'est pourquoi beaucoup d'entre elles entraînent les modèles existants à l'aide des données de l'entreprise pour mettre en œuvre l'IA générative. C'est ce qu'on appelle le réglage du modèle.

Tandis que le réglage de GenAI adapte les modèles aux domaines, la génération augmentée de récupération (RAG) est le mécanisme que GenAI utilise pour rechercher des faits au sein de l'entreprise afin de soutenir ses réponses. Par exemple, si vous demandez à un chatbot GenAI quand votre commande sera livrée, il utilisera RAG pour accéder au système de traitement des commandes afin d'obtenir la réponse.

Pour que GenAI fonctionne efficacement dans l'entreprise, la prise en charge du réglage du modèle et des données RAG doit être :

Accessible
Faire le ménage
Étiqueté
Sécurisé

Intégration et accès aux données

Un accès étendu aux données est la première exigence de votre stratégie GenAI. Pour optimiser vos modèles, ils doivent avoir accès aux données de formation pertinentes, et pour que RAG fonctionne, les modèles doivent avoir accès aux données opérationnelles.

Modèles de réglage

Pour un réglage efficace du modèle, un ensemble de données plus large et plus diversifié est nécessaire. Si les modèles GenAI ne sont exposés qu'à des ensembles de données restreints, ils ont tendance à sur-adapter le modèle et à mémoriser l'ensemble de données d'entraînement sans rien apprendre. Pour que les modèles apprennent et différencient des caractéristiques distinctes, ils doivent être entraînés sur des données variées. Ces ensembles de données doivent représenter des données provenant de toute l'organisation pour créer une plus grande dimensionnalité. Avec une plus grande représentation, les modèles d'IA seront moins biaisés et plus efficaces.

Pour optimiser les modèles GenAI, il est essentiel d'utiliser les bons ensembles de données qui peuvent exister n'importe où dans votre organisation. Des ensembles de données plus petits et de haute qualité sont préférables à des données volumineuses et de faible qualité. Les ensembles de données de faible qualité créent du bruit qui perturbe les modèles et perturbe l'apprentissage. Avoir accès à toutes les données organisationnelles et comprendre leur qualité vous aidera à trouver les données d'entraînement appropriées pour l'optimisation de GenAI.

CHIFFON

Pour que GenAI soit utile à l’entreprise, il doit avoir accès aux informations appropriées dans le contexte approprié pour répondre aux requêtes des utilisateurs. Les produits de données sont un excellent moyen de soutenir ces processus en fournissant un contexte et une personnalisation accrus autour des requêtes des utilisateurs. En intégrant les produits de données à GenAI, les produits de données axés sur le client peuvent fournir des invites ou des entrées qui peuvent être intégrées à GenAI pour offrir davantage de personnalisation et de réponses contextuelles. Les produits de données fournissent l’accès et la gouvernance appropriée pour garantir que GenAI exploite les meilleures données. Par exemple, les chatbots peuvent exploiter les produits de données pour insérer des salutations personnelles dans les communications ou poser des questions sur les achats précédents, améliorant ainsi l’expérience.

Qualité et intégrité

La capacité unique de GenAI à apprendre de manière autonome sans supervision la rend révolutionnaire mais dangereuse. La nature « boîte noire » de la technologie rend la qualité des données primordiale pour la réussite des implémentations de GenAI. Selon Wakefield Research, 42 % des responsables des données citent la qualité des données comme le principal obstacle lié aux données à l'adoption de GenAI et des grands modèles linguistiques.

La capacité de GenAI à apprendre à partir de données non structurées le distingue également de l'IA traditionnelle. Ces données sont généralement les plus désordonnées et rarement nettoyées ou organisées. Pour utiliser ces données non structurées dans votre RAG ou votre formation, un prétraitement et une normalisation sont nécessaires pour aider GenAI à donner un sens aux données.

Le nettoyage des données non structurées est différent du nettoyage des données structurées car, généralement, ces données sont sous forme de texte et le processus de nettoyage comprend :

Normaliser la langue, par exemple en corrigeant les fautes d’orthographe ou en développant les abréviations.
L’identification des anomalies en vue d’une enquête plus approfondie est un autre moyen de nettoyer vos données non structurées pour prendre en charge GenAI.

Découverte, métadonnées et contexte

La capacité de l'IA générative à traiter des données non structurées est un véritable tournant. Cependant, le manque de cohérence dans les données d'entraînement peut entraîner des erreurs et des hallucinations. Pour atténuer les erreurs, l'étiquetage des données et des stratégies efficaces de gestion des métadonnées sont nécessaires pour fournir plus de structure.

En créant davantage de structure autour des données non structurées, les données sont moins bruyantes et moins conflictuelles. Les humains sont bien plus doués que les machines pour résoudre ces conflits. Une stratégie de métadonnées robuste qui gère les métadonnées de toutes vos bases de données permet de créer une source unique de vérité sur laquelle l'IA peut s'appuyer. L'intégration de mécanismes qui permettent aux humains de travailler avec l'IA pour étiqueter et catégoriser les données aide les organisations à s'assurer que leurs données d'entreprise sont prêtes pour GenAI.

Confidentialité et sécurité

Laisser GenAI s'emparer de vos données personnelles et sécurisées nécessite un contrôle supplémentaire. La soif de données de GenAI pousse la technologie à utiliser toutes les données auxquelles elle peut accéder. Les processus RAG ou de formation violeront les protocoles si les limites d'accès aux données personnelles ne sont pas en place. Le cloisonnement de toutes vos données limite l'efficacité de GenAI. Pour préparer vos données et vos systèmes à GenAI, les entreprises ont besoin d'une stratégie de contrôle d'accès granulaire et de masquage des données pour enseigner aux modèles ce qui est interdit et garantir que les modèles ne partagent pas de données privées de manière inappropriée.

Nécessite une approche d'équipe

Préparer les données pour la technologie innovante GenAI n’est pas une tâche simple. La puissance de la technologie nécessite des humains qualifiés pour la surveiller et s’assurer qu’elle fonctionne correctement. Lorsque les robots GenAI deviennent la passerelle entre les données et les utilisateurs, les analystes, qui contrôlaient traditionnellement l’accès aux informations, sont exclus du processus. Ils perdent le contrôle des données auxquelles ils ont accès et de leur qualité. Cette évolution exige de nouvelles stratégies de gouvernance plus robustes qui intègrent les contributions et la supervision de toute l’organisation.

Les équipes qui gèrent ces processus auront besoin d'un ensemble de compétences variées. Elles devront comprendre le fonctionnement des modèles et la technologie sous-jacente, et saisir les implications et les exigences commerciales de ces modèles.

GenAI peut résoudre ses propres problèmes

L’avantage de la préparation des données pour GenAI est que GenAI peut vous aider dans ce processus. Les outils d’IA peuvent aider les humains à baliser les données et à corriger automatiquement l’orthographe ou à développer les abréviations. GenAI peut également créer des données synthétiques pour combler les lacunes des ensembles de données. C’est grâce à cette capacité que GenAI peut fabriquer des données qui reproduisent fidèlement les conditions du monde réel.

L'IA générative peut apprendre d'elle-même, mais elle doit commencer quelque part. Le point de départ aura un impact profond sur le résultat final. En commençant avec les données de la meilleure qualité, vous serez dans la meilleure position pour obtenir d'excellents résultats.