¿Están sus datos listos para GenAI?

Listen to this blog

Disclaimer

Sin duda, GenAI está en pleno auge. Es difícil decir si ha alcanzado su punto álgido, pero la tecnología tiene el potencial de alterar radicalmente nuestra forma de trabajar y vivir. La cantidad de casos de uso de GenAI y de áreas en las que puede aportar valor es infinita y transformadora. Mark Cuban cree que el primer billonario será el innovador que optimice la monetización de la IA antes que nadie. McKinsey and Company estima que GenAI tendrá un impacto en la productividad que equivale a entre 2,6 y 4,4 billones de dólares.

Pero la pregunta sigue siendo: ¿los humanos y la IA trabajarán juntos sin problemas y cómo las personas monetizarán su creatividad en un ecosistema dominado por modelos GenAI en rápida evolución? El camino para responder a estas preguntas estará plagado de desafíos, fracasos e innovación. Las organizaciones deben estar preparadas para futuras disrupciones. La mejor manera de hacerlo es asegurarse de que sus datos, el mayor activo de una organización en este nuevo ecosistema, estén listos para el futuro.

El año pasado, surgieron los primeros modelos de modelos de lenguaje grandes (LLM), como ChatGPT-3, Microsoft Copilot y Google Gemini, lo que dio lugar a una explosión de experimentación con GenAI. Este año, estos modelos experimentales se perfeccionarán y se trasladarán a la producción. Las organizaciones necesitan acceso a diversos conjuntos de datos de alta calidad para escalar estos modelos con éxito y funcionar de manera eficaz en la producción. Las organizaciones pueden descubrir que obtener estos datos no es fácil y que aún queda mucho trabajo por hacer. Según la encuesta de datos y análisis de Wavestone , solo el 5 % de las organizaciones han implementado la IA generativa en la producción a gran escala.

Si bien las organizaciones pueden tener más tracción con la IA tradicional, la IA generativa es un animal diferente con diferentes requisitos de datos. La IA tradicional se basa en el aprendizaje supervisado, donde se utilizan conjuntos de datos seleccionados para entrenar modelos para identificar patrones y resultados. Mientras que GenAI aprovecha datos estructurados y no estructurados y crea datos por sí solo en lugar de simplemente predecir resultados. Este aprendizaje no es supervisado, por lo que el modelo aprende de cualquier dato al que pueda acceder. GenAI es más como una caja negra compleja donde los científicos de datos no entienden por qué los modelos toman las decisiones que toman. Esta falta de observabilidad hace que sea fundamental que los modelos GenAI tengan acceso a datos de la más alta calidad.

Aplicación de GenAI para mejorar el rendimiento empresarial

La aplicación de GenAI en la empresa se centra en el ajuste fino de modelos de terceros listos para usar, como ChatGPT. La creación de modelos LLM grandes y únicos no es económicamente viable para la mayoría de las organizaciones, por lo que muchas entrenan modelos existentes utilizando datos empresariales para implementar la IA generativa. Esto se conoce como ajuste del modelo.

Mientras que el ajuste de GenAI adapta los modelos a los dominios, la generación aumentada de recuperación (RAG) es el mecanismo que GenAI utiliza para obtener datos dentro de la empresa que respalden sus respuestas. Por ejemplo, si le preguntas a un chatbot de GenAI cuándo se entregará tu pedido, utilizará RAG para acceder al sistema de cumplimiento y obtener la respuesta.

Para que GenAI funcione eficazmente en la empresa y respalde el ajuste de modelos, los datos RAG deben ser:

Accesible
Limpio
Etiquetado
Seguro

Integración y acceso a datos

El acceso amplio a los datos es el primer requisito de su estrategia GenAI. Para ajustar sus modelos, estos necesitan acceso a los datos de entrenamiento pertinentes y, para que RAG funcione, los modelos deben tener acceso a los datos operativos.

Modelos de tuning

Para ajustar eficazmente los modelos, se requiere un conjunto de datos más amplio y diverso. Si los modelos GenAI solo se exponen a conjuntos de datos reducidos, tienden a sobreajustarse al modelo y memorizar el conjunto de datos de entrenamiento sin aprender nada. Para que los modelos aprendan y diferencien entre características distintas, deben entrenarse con datos variados. Estos conjuntos de datos deben representar datos de toda la organización para crear una mayor dimensionalidad. Con una mayor representación, los modelos de IA estarán menos sesgados y serán más efectivos.

Para ajustar los modelos GenAI, es fundamental utilizar los conjuntos de datos adecuados que puedan existir en cualquier parte de su organización. Los conjuntos de datos más pequeños y de alta calidad son mejores que los datos grandes y de baja calidad. Los conjuntos de datos de baja calidad generan ruido que confunde los modelos e interrumpe el aprendizaje. Tener acceso a todos los datos de la organización y comprender su calidad le ayudará a encontrar los datos de entrenamiento correctos para ajustar GenAI.

TRAPO

Para que GenAI sea útil en la organización, debe tener acceso a la información adecuada en el contexto adecuado para responder a las consultas de los usuarios. Los productos de datos son una excelente manera de respaldar estos procesos al brindar un mayor contexto y personalización en torno a las consultas de los usuarios. Al integrar productos de datos con GenAI, los productos de datos centrados en el cliente pueden proporcionar indicaciones o datos que se pueden introducir en GenAI para brindar respuestas más personalizadas y contextuales. Los productos de datos brindan el acceso y la gobernanza adecuados para garantizar que GenAI aproveche los mejores datos. Por ejemplo, los chatbots pueden aprovechar los productos de datos para insertar saludos personales en las comunicaciones o preguntar sobre compras anteriores, mejorando así la experiencia.

Calidad e Integridad

La capacidad única de GenAI de aprender de forma independiente sin supervisión la convierte en una tecnología revolucionaria pero peligrosa. La naturaleza de "caja negra" de la tecnología hace que la calidad de los datos sea primordial para una implementación exitosa de GenAI. El cuarenta y dos por ciento de los líderes en datos citan la calidad de los datos como el principal obstáculo relacionado con los datos para la adopción de GenAI y modelos de lenguaje de gran tamaño, según Wakefield Research.

La capacidad de GenAI para aprender de datos no estructurados también la distingue de la IA tradicional. Estos datos suelen ser los más desordenados y rara vez se limpian u organizan. Para utilizar estos datos no estructurados en su RAG o entrenamiento, se requiere preprocesamiento y normalización para ayudar a GenAI a interpretar los datos.

La limpieza de datos no estructurados es diferente a la limpieza de datos estructurados, ya que, normalmente, estos datos están en formato de texto y el proceso de limpieza incluye:

Estandarizar el lenguaje, como corregir errores ortográficos o ampliar abreviaturas.
Identificar anomalías para realizar más investigaciones es otra forma de limpiar sus datos no estructurados para respaldar GenAI.

Descubrimiento, metadatos y contexto

La capacidad de la IA generativa para procesar datos no estructurados es un punto de inflexión. Sin embargo, la falta de coherencia en los datos de entrenamiento puede provocar errores y alucinaciones. Para mitigar los errores, se requieren estrategias de etiquetado de datos y gestión de metadatos eficaces para proporcionar una mayor estructura.

Crear más estructura en torno a los datos no estructurados hace que estos sean menos ruidosos y conflictivos. Los humanos son mucho mejores que las máquinas para resolver estos conflictos. Una estrategia de metadatos sólida que gestione los metadatos en todas las bases de datos ayuda a crear una única fuente de información en la que la IA pueda confiar. La incorporación de mecanismos que permitan a los humanos trabajar con la IA para etiquetar y categorizar los datos ayuda a las organizaciones a garantizar que sus datos empresariales estén listos para GenAI.

Privacidad y seguridad

Para permitir que GenAI acceda a sus datos personales y seguros, se requiere un control adicional. El ansia de datos de GenAI hace que la tecnología utilice todos los datos a los que puede acceder. Los procesos de RAG o de capacitación violarán los protocolos si no se establecen límites de acceso a los datos personales. Aislar todos sus datos limita la eficacia de GenAI. Para preparar sus datos y sistemas para GenAI, las empresas necesitan una estrategia de controles de acceso granulares y enmascaramiento de datos para enseñar a los modelos qué está fuera de los límites y garantizar que los modelos no compartan datos privados de manera inapropiada.

Requiere un enfoque de equipo

Preparar datos para la innovadora tecnología GenAI no es una tarea sencilla. El poder de la tecnología requiere de personas capacitadas para supervisarla y garantizar su correcto funcionamiento. Cuando los robots GenAI se convierten en la puerta de enlace entre los datos y los usuarios, los analistas, que tradicionalmente controlaban el acceso a la información, quedan excluidos del proceso. Pierden el control de los datos a los que se accede y de si son de buena calidad. Este cambio exige estrategias de gobernanza nuevas y más sólidas que incorporen la aportación y la supervisión de toda la organización.

Los equipos que gestionen estos procesos necesitarán un conjunto diverso de habilidades. Deberán comprender cómo funcionan los modelos y la tecnología subyacente, y comprender las implicaciones y los requisitos comerciales de estos modelos.

GenAI puede resolver sus propios problemas

Lo bueno de preparar datos para GenAI es que GenAI puede ayudar en el proceso. Las herramientas de IA pueden ayudar a los humanos a etiquetar datos y corregir automáticamente la ortografía o ampliar las abreviaturas. GenAI también puede crear datos sintéticos para llenar los vacíos en los conjuntos de datos. Esta capacidad es donde GenAI puede fabricar datos que imitan de cerca las condiciones del mundo real.

La IA generativa puede aprender de sí misma, pero debe empezar por algún lado. El punto de partida tendrá un profundo impacto en el resultado final. Comenzar con datos de la mejor calidad lo colocará en la mejor posición para obtener grandes resultados.