I tuoi dati sono pronti per GenAI?

Listen to this blog

Disclaimer

Senza dubbio, GenAI è nel ciclo di hype. È difficile dire se abbia raggiunto il suo picco iniziale, ma la tecnologia ha il potenziale per sconvolgere radicalmente il nostro modo di lavorare e vivere. Il numero di casi d'uso di GenAI e dove può aggiungere valore è infinito e trasformativo. Mark Cuban ritiene che il primo trilionario sarà l'innovatore che ottimizzerà la monetizzazione dell'IA prima di chiunque altro. McKinsey and Company stima che GenAI avrà un impatto sulla produttività che equivale a $ 2,6-4,4 trilioni.

Ma la domanda rimane: gli esseri umani e l'intelligenza artificiale lavoreranno insieme senza soluzione di continuità e come le persone monetizzeranno la loro creatività in un ecosistema dominato da modelli GenAI in rapida evoluzione? La strada per rispondere a queste domande sarà lastricata di sfide, fallimenti e innovazione. Le organizzazioni devono essere preparate per le future interruzioni. Il modo migliore per farlo è garantire che i tuoi dati, la risorsa più importante di un'organizzazione in questo nuovo ecosistema, siano pronti per il futuro.

L'anno scorso sono emersi i primi modelli Large Language Model (LLM) come ChatGPT-3, Microsoft Copilot e Google Gemini, che hanno portato a un'esplosione di sperimentazione GenAI. Quest'anno, questi modelli sperimentali saranno perfezionati e trasferiti in produzione. Le organizzazioni hanno bisogno di accedere a diversi set di dati di alta qualità per scalare questi modelli con successo e funzionare efficacemente in produzione. Le organizzazioni potrebbero scoprire che procurarsi questi dati non è facile e che c'è ancora molto lavoro da fare. Secondo il sondaggio Data & Analytics di Wavestone , solo il 5% delle organizzazioni ha implementato l'IA generativa in produzione su larga scala.

Mentre le organizzazioni possono avere più trazione con l'IA tradizionale, l'IA generativa è un animale diverso con requisiti di dati diversi. L'IA tradizionale si basa sull'apprendimento supervisionato, in cui set di dati curati vengono utilizzati per addestrare modelli per identificare modelli e risultati. Mentre GenAI sfrutta sia i dati strutturati che quelli non strutturati e crea dati da solo invece di prevedere semplicemente i risultati. Questo apprendimento non è supervisionato, quindi il modello impara da tutti i dati a cui può accedere. GenAI è più simile a una complessa scatola nera in cui gli scienziati dei dati non capiscono perché i modelli stanno prendendo le decisioni che stanno prendendo. Questa mancanza di osservabilità rende fondamentale che i modelli GenAI abbiano accesso ai dati di massima qualità.

Applicazione di GenAI per migliorare le prestazioni aziendali

L'applicazione GenAI nell'impresa si concentra sulla messa a punto di modelli di terze parti standard come ChatGPT. Creare modelli LLM di grandi dimensioni unici non è economicamente fattibile per la maggior parte delle organizzazioni, quindi molte addestrano modelli esistenti utilizzando dati aziendali per implementare l'IA generativa. Questo è noto come messa a punto del modello.

Mentre il tuning di GenAI adatta i modelli ai domini, Retrieval Augmented Generation (RAG) è il meccanismo che GenAI usa per reperire i fatti all'interno dell'azienda per supportare le sue risposte. Ad esempio, se chiedi a un chatbot di GenAI quando verrà consegnato il tuo ordine, userà RAG per accedere al sistema di evasione degli ordini per ottenere la risposta.

Affinché GenAI funzioni efficacemente in azienda per supportare l'ottimizzazione del modello e i dati RAG devono essere:

Accessibile
Pulito
Etichettato
Sicuro

Integrazione e accesso ai dati

L'ampio accesso ai dati è il primo requisito della tua strategia GenAI. Per mettere a punto i tuoi modelli, hanno bisogno di accedere ai dati di training pertinenti e, affinché RAG funzioni, i modelli devono avere accesso ai dati operativi.

Modelli di messa a punto

Per un'efficace messa a punto del modello è necessario un set di dati più ampio e diversificato. Se i modelli GenAI sono esposti solo a set di dati ristretti, tendono a sovra-adattare il modello e a memorizzare il set di dati di training senza apprendere nulla. Affinché i modelli possano apprendere e differenziare tra caratteristiche distinte, devono essere addestrati su dati diversi. Questi set di dati devono rappresentare dati provenienti da tutta l'organizzazione per creare una maggiore dimensionalità. Con una maggiore rappresentazione, i modelli AI saranno meno distorti e più efficaci.

Utilizzare i set di dati corretti che possono esistere ovunque nella tua organizzazione è essenziale per la messa a punto dei modelli GenAI. I set di dati più piccoli e di alta qualità sono migliori di quelli grandi e di bassa qualità. I set di dati di bassa qualità creano rumore che confonde i modelli e interrompe l'apprendimento. Avere accesso a tutti i dati organizzativi e comprenderne la qualità ti aiuterà a trovare i dati di training corretti per la messa a punto di GenAI.

STRACCIO

Affinché GenAI sia utile nell'organizzazione, deve avere accesso alle informazioni appropriate nel contesto appropriato per rispondere alle query degli utenti. I prodotti dati sono un ottimo modo per supportare questi processi fornendo un contesto e una personalizzazione maggiori intorno alle query degli utenti. Integrando i prodotti dati con GenAI, i prodotti dati incentrati sul cliente possono fornire prompt o input che possono essere immessi in GenAI per fornire più personalizzazione e risposte contestuali. I prodotti dati forniscono l'accesso e la governance appropriata per garantire che GenAI sfrutti i dati migliori. Ad esempio, i chatbot possono sfruttare i prodotti dati per inserire saluti personali nelle comunicazioni o chiedere informazioni sugli acquisti precedenti, migliorando così l'esperienza.

Qualità e integrità

La capacità unica di GenAI di apprendere in modo indipendente senza supervisione la rende rivoluzionaria ma pericolosa. La natura "scatola nera" della tecnologia rende i dati di qualità fondamentali per implementazioni GenAI di successo. Il quarantadue percento dei leader dei dati cita la qualità dei dati come il principale ostacolo correlato ai dati per l'adozione di GenAI e grandi modelli linguistici, secondo Wakefield Research.

La capacità di GenAI di apprendere da dati non strutturati la distingue anche dall'AI tradizionale. Questi dati sono solitamente i più disordinati e raramente puliti o organizzati. Per utilizzare questi dati non strutturati nel tuo RAG o nella formazione, sono necessari pre-processamento e normalizzazione per aiutare GenAI a dare un senso ai dati.

La pulizia dei dati non strutturati è diversa dalla pulizia dei dati strutturati poiché, in genere, questi dati sono in formato testo e il processo di pulizia include:

Standardizzare il linguaggio, ad esempio correggendo gli errori di ortografia o ampliando le abbreviazioni.
Un altro modo per ripulire i dati non strutturati a supporto di GenAI è identificare anomalie per ulteriori indagini.

Scoperta, metadati e contesto

La capacità dell'IA generativa di elaborare dati non strutturati è un punto di svolta. Tuttavia, la mancanza di coerenza nei dati di training può portare a errori e allucinazioni. Per mitigare gli errori, sono necessarie strategie di etichettatura dei dati ed efficaci strategie di gestione dei metadati per fornire più struttura.

Creare più struttura attorno ai dati non strutturati rende i dati meno rumorosi e conflittuali. Gli esseri umani sono molto più bravi delle macchine a risolvere questi conflitti. Una strategia di metadati solida che gestisce i metadati in tutti i database aiuta a creare un'unica fonte di verità su cui l'IA può fare affidamento. Incorporare meccanismi che consentono agli esseri umani di lavorare con l'IA per etichettare e categorizzare i dati aiuta le organizzazioni a garantire che i dati aziendali siano pronti per GenAI.

Privacy e sicurezza

Lasciare che GenAI si scateni sui tuoi dati personali e protetti richiede un controllo aggiuntivo. La fame di dati di GenAI spinge la tecnologia a utilizzare qualsiasi dato a cui può accedere. I processi RAG o di formazione violeranno i protocolli se non sono in atto limiti all'accesso ai dati personali. Isolare tutti i tuoi dati limita l'efficacia di GenAI. Per preparare i tuoi dati e sistemi per GenAI, le aziende hanno bisogno di una strategia per controlli di accesso granulari e mascheramento dei dati per insegnare ai modelli cosa è off-limits e garantire che i modelli non condividano in modo inappropriato dati privati.

Richiede un approccio di squadra

Preparare i dati per l'innovativa tecnologia GenAI non è un compito semplice. Il potere della tecnologia richiede esseri umani qualificati per monitorarla e garantirne il corretto funzionamento. Quando i bot GenAI diventano il gateway tra dati e utenti, gli analisti, che tradizionalmente controllavano l'accesso alle informazioni, vengono tagliati fuori dal processo. Perdono il controllo su quali dati vengono consultati e se sono di buona qualità. Questo cambiamento richiede nuove e più solide strategie di governance che incorporino input e supervisione da tutta l'organizzazione.

I team che gestiscono questi processi richiederanno un set diversificato di competenze. Dovranno comprendere come funzionano i modelli e la tecnologia sottostante e cogliere le implicazioni e i requisiti aziendali di questi modelli.

GenAI può risolvere i propri problemi

La cosa grandiosa della preparazione dei dati per GenAI è che GenAI può aiutare nel processo. Gli strumenti di intelligenza artificiale possono aiutare gli umani a etichettare i dati e correggere automaticamente l'ortografia o espandere le abbreviazioni. GenAI può anche creare dati sintetici per colmare le lacune nei set di dati. Questa capacità è dove GenAI può fabbricare dati che imitano da vicino le condizioni del mondo reale.

L'intelligenza artificiale generativa può imparare da sé stessa, ma deve iniziare da qualche parte. Il punto di partenza avrà un impatto profondo su dove arriverai. Iniziare con i dati di migliore qualità ti metterà nella posizione migliore per ottenere grandi risultati.