Seus dados estão prontos para o GenAI?



Listen to this blog
Disclaimer

Sem dúvida, a GenAI está no ciclo de hype. É difícil dizer se ela atingiu seu pico inicial, mas a tecnologia tem o potencial de romper fundamentalmente como trabalhamos e vivemos. O número de casos de uso da GenAI e onde ela pode agregar valor é infinito e transformador. Mark Cuban acredita que o primeiro trilionário será o inovador que otimizar a monetização da IA antes de qualquer outra pessoa. A McKinsey and Company estima que a GenAI terá um impacto na produtividade que equivale a US$ 2,6 a US$ 4,4 trilhões.

Mas a questão permanece: os humanos e a IA trabalharão juntos perfeitamente, e como as pessoas monetizarão sua criatividade em um ecossistema dominado por modelos GenAI em rápida evolução? O caminho para responder a essas perguntas será pavimentado com desafios, fracassos e inovação. As organizações precisam estar preparadas para futuras interrupções. A melhor maneira de fazer isso é garantir que seus dados, o maior ativo de uma organização neste novo ecossistema, estejam prontos para o futuro.

No ano passado, os primeiros modelos Large Language Model (LLM), como ChatGPT-3, Microsoft Copilot e Google Gemini, surgiram, levando a uma explosão de experimentação GenAI. Este ano, esses modelos experimentais serão aperfeiçoados e movidos para a produção. As organizações precisam de acesso a diversos conjuntos de dados de alta qualidade para dimensionar esses modelos com sucesso e ter um desempenho eficaz na produção. As organizações podem descobrir que obter esses dados não é fácil, e muito mais trabalho ainda precisa ser feito. De acordo com a pesquisa Data & Analytics da Wavestone , apenas 5% das organizações implementaram a IA Generativa na produção em escala.

Embora as organizações possam ter mais tração com a IA tradicional, a IA Generativa é um animal diferente com diferentes requisitos de dados. A IA tradicional depende do aprendizado supervisionado, onde conjuntos de dados selecionados são usados para treinar modelos para identificar padrões e resultados. Enquanto a GenAI aproveita dados estruturados e não estruturados e cria dados por conta própria em vez de simplesmente prever resultados. Esse aprendizado não é supervisionado, então o modelo aprende com quaisquer dados que ele possa acessar. A GenAI é mais como uma caixa preta complexa onde os cientistas de dados não entendem por que os modelos estão tomando as decisões que estão. Essa falta de observabilidade torna fundamental que os modelos GenAI tenham acesso aos dados da mais alta qualidade.

Aplicando GenAI para melhorar o desempenho empresarial

A aplicação GenAI na empresa foca no ajuste fino de modelos de terceiros prontos para uso, como ChatGPT. Criar modelos LLM grandes e exclusivos não é economicamente viável para a maioria das organizações, então muitas treinam modelos existentes usando dados empresariais para implementar IA Generativa. Isso é conhecido como ajuste do modelo.

Enquanto o ajuste do GenAI adapta modelos a domínios, o Retrieval Augmented Generation (RAG) é o mecanismo que o GenAI usa para obter fatos dentro da empresa para dar suporte às suas respostas. Por exemplo, se você perguntar a um chatbot do GenAI quando seu pedido será entregue, ele usará o RAG para acessar o sistema de atendimento para obter a resposta.

Para que o GenAI funcione efetivamente na empresa para dar suporte ao ajuste do modelo e os dados RAG devem ser:

  • Acessível
  • Limpar
  • Etiquetado
  • Seguro

Integração e acesso a dados

O amplo acesso aos dados é o primeiro requisito da sua estratégia GenAI. Para ajustar seus modelos, eles precisam ter acesso aos dados de treinamento relevantes e, para que o RAG funcione, os modelos devem ter acesso aos dados operacionais.

Modelos de ajuste

Para um ajuste de modelo eficaz, é necessário um conjunto de dados mais amplo e diverso. Se os modelos GenAI forem expostos apenas a conjuntos de dados estreitos, eles tendem a superajustar o modelo e memorizar o conjunto de dados de treinamento sem aprender nada. Para que os modelos aprendam e diferenciem entre características distintas, eles devem ser treinados em dados variados. Esses conjuntos de dados precisam representar dados de toda a organização para criar maior dimensionalidade. Com maior representação, os modelos de IA serão menos tendenciosos e mais eficazes.

Usar os conjuntos de dados certos que podem existir em qualquer lugar da sua organização é essencial para ajustar os modelos GenAI. Conjuntos de dados menores e de alta qualidade são melhores do que dados grandes e de baixa qualidade. Conjuntos de dados de baixa qualidade criam ruído que confunde os modelos e interrompe o aprendizado. Ter acesso a todos os dados organizacionais e entender sua qualidade ajudará você a encontrar os dados de treinamento corretos para o ajuste do GenAI.

TRAPO

Para que o GenAI seja útil na organização, ele deve ter acesso às informações apropriadas no contexto adequado para responder às consultas do usuário. Os produtos de dados são uma ótima maneira de dar suporte a esses processos, fornecendo maior contexto e personalização em torno das consultas do usuário. Ao integrar produtos de dados com o GenAI, os produtos de dados focados no cliente podem fornecer prompts ou entradas que podem ser alimentados no GenAI para fornecer mais personalização e respostas contextuais. Os produtos de dados fornecem o acesso e a governança apropriada para garantir que o GenAI esteja aproveitando os melhores dados. Por exemplo, os chatbots podem aproveitar os produtos de dados para inserir saudações pessoais em comunicações ou perguntar sobre compras anteriores, aprimorando assim a experiência.

Qualidade e Integridade

A capacidade única do GenAI de aprender de forma independente, sem supervisão, o torna revolucionário, mas perigoso. A natureza de "caixa preta" da tecnologia torna os dados de qualidade primordiais para implementações bem-sucedidas do GenAI. Quarenta e dois por cento dos líderes de dados citam a qualidade dos dados como o principal obstáculo relacionado a dados para a adoção do GenAI e de modelos de linguagem grande, de acordo com a Wakefield Research.

A capacidade do GenAI de aprender com dados não estruturados também o diferencia da IA tradicional. Esses dados geralmente são os mais bagunçados e raramente limpos ou organizados. Para usar esses dados não estruturados em seu RAG ou treinamento, pré-processamento e normalização são necessários para ajudar o GenAI a entender os dados.

A limpeza de dados não estruturados é diferente da limpeza de dados estruturados, pois, normalmente, esses dados estão em formato de texto e o processo de limpeza inclui:

  • Padronizar a linguagem, como corrigir erros de ortografia ou expandir abreviações.
  • Identificar anomalias para investigação posterior é outra maneira de limpar seus dados não estruturados para dar suporte ao GenAI.

Descoberta, Metadados e Contexto

A capacidade da IA generativa de processar dados não estruturados é um divisor de águas. No entanto, a falta de consistência nos dados de treinamento pode levar a erros e alucinações. Para mitigar os erros, a rotulagem de dados e estratégias eficazes de gerenciamento de metadados são necessárias para fornecer mais estrutura.

Criar mais estrutura em torno de dados não estruturados torna os dados menos ruidosos e conflitantes. Os humanos são muito melhores em resolver esses conflitos do que as máquinas. Uma estratégia de metadados robusta que gerencia metadados em todos os seus bancos de dados ajuda a criar uma única fonte de verdade na qual a IA pode confiar. Incorporar mecanismos que permitem que os humanos trabalhem com a IA para rotular e categorizar dados ajuda as organizações a garantir que seus dados corporativos estejam prontos para o GenAI.

Privacidade e Segurança

Deixar a GenAI à solta em seus dados pessoais e seguros requer controle adicional. A fome da GenAI por dados leva a tecnologia a usar quaisquer dados que ela possa acessar. Os processos de RAG ou treinamento violarão protocolos se limites de acesso a dados pessoais não estiverem em vigor. Isolar todos os seus dados limita a eficácia da GenAI. Para preparar seus dados e sistemas para a GenAI, as empresas precisam de uma estratégia para controles de acesso granulares e mascaramento de dados para ensinar aos modelos o que está fora dos limites e garantir que os modelos não compartilhem dados privados de forma inadequada.

Requer uma abordagem de equipe

Preparar dados para a inovadora tecnologia GenAI não é uma tarefa simples. O poder da tecnologia requer humanos qualificados para monitorá-la e garantir que ela opere corretamente. Quando os bots GenAI se tornam o gateway entre dados e usuários, os analistas, que tradicionalmente controlavam o acesso aos insights, são cortados do processo. Eles perdem o controle de quais dados são acessados e se são de boa qualidade. Essa mudança exige estratégias de governança novas e mais robustas que incorporem informações e supervisão de toda a organização.

As equipes que gerenciam esses processos precisarão de um conjunto diversificado de habilidades. Elas precisarão entender como os modelos funcionam e a tecnologia subjacente, além de compreender as implicações e os requisitos de negócios desses modelos.

GenAI pode resolver seus próprios problemas

O melhor de preparar dados para o GenAI é que o GenAI pode ajudar no processo. Ferramentas de IA podem ajudar humanos a marcar dados e corrigir automaticamente a ortografia ou expandir abreviações. O GenAI também pode criar dados sintéticos para preencher lacunas em conjuntos de dados. Essa capacidade é onde o GenAI pode fabricar dados que imitam de perto as condições do mundo real.

A IA generativa pode aprender por si mesma, mas precisa começar em algum lugar. Onde você começa terá um impacto profundo em onde você termina. Começar com os dados da melhor qualidade colocará você na melhor posição para grandes resultados.

Discover the Latest in Data and AI Innovation

  • Estratégias de integração e sincronização de dados em produtos de dados

    Read More

  • Como construir confiança com produtos de dados

    Read More

  • Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados

    Read More

Request a Demo TODAY!

Take the leap from data to AI