의심할 여지 없이 GenAI는 하이프 사이클에 있습니다. 초기 정점에 도달했는지는 말하기 어렵지만, 이 기술은 우리가 일하고 사는 방식을 근본적으로 파괴할 잠재력이 있습니다. GenAI 사용 사례의 수와 가치를 더할 수 있는 곳은 무한하고 혁신적입니다. Mark Cuban은 최초의 조만장자는 다른 누구보다 먼저 AI 수익화를 최적화하는 혁신가가 될 것이라고 믿습니다. McKinsey and Company는 GenAI가 생산성에 2조 6,000억 달러에서 4조 4,000억 달러에 해당하는 영향을 미칠 것으로 추정합니다.
하지만 여전히 의문은 남습니다. 인간과 AI가 원활하게 협력할 수 있을까요? 그리고 사람들은 빠르게 진화하는 GenAI 모델이 지배하는 생태계에서 창의성을 어떻게 수익화할 수 있을까요? 이러한 질문에 답하는 길은 도전, 실패, 혁신으로 포장될 것입니다. 조직은 미래의 혼란에 대비해야 합니다. 이를 위한 가장 좋은 방법은 이 새로운 생태계에서 조직의 가장 큰 자산인 데이터를 미래에 대비하는 것입니다.
작년에 ChatGPT-3, Microsoft Copilot, Google Gemini와 같은 최초의 Large Language Model(LLM) 모델이 등장하면서 GenAI 실험이 폭발적으로 증가했습니다. 올해는 이러한 실험 모델이 완성되어 프로덕션으로 전환됩니다. 조직은 이러한 모델을 성공적으로 확장하고 프로덕션에서 효과적으로 수행하려면 다양한 고품질 데이터 세트에 액세스해야 합니다. 조직은 이러한 데이터를 조달하는 것이 쉽지 않다는 것을 알게 될 수 있으며, 여전히 많은 작업이 필요합니다. Wavestone의 Data & Analytics 설문 조사 에 따르면 조직의 5%만이 프로덕션에서 Generative AI를 대규모로 구현했습니다.
조직이 기존 AI로 더 많은 추진력을 얻을 수 있지만, Generative AI는 다른 데이터 요구 사항이 있는 다른 동물입니다. 기존 AI는 선별된 데이터 세트를 사용하여 패턴과 결과를 식별하도록 모델을 훈련하는 지도 학습에 의존합니다. 반면 GenAI는 구조화된 데이터와 구조화되지 않은 데이터를 모두 활용하고 단순히 결과를 예측하는 대신 자체적으로 데이터를 생성합니다. 이 학습은 비지도 학습이므로 모델은 액세스할 수 있는 모든 데이터에서 학습합니다. GenAI는 데이터 과학자가 모델이 왜 그런 결정을 내리는지 이해하지 못하는 복잡한 블랙박스와 더 비슷합니다. 이러한 관찰 가능성의 부족으로 인해 GenAI 모델이 최고 품질의 데이터에 액세스할 수 있는 것이 가장 중요합니다.
기업에서 GenAI를 적용하는 것은 ChatGPT와 같은 기성형 타사 모델을 미세 조정하는 데 중점을 둡니다. 대부분의 조직에서 고유한 대규모 LLM 모델을 만드는 것은 경제적으로 실행 가능하지 않으므로 많은 조직에서 기업 데이터를 사용하여 기존 모델을 학습하여 Generative AI를 구현합니다. 이를 모델 튜닝이라고 합니다.
GenAI 튜닝은 모델을 도메인에 적용하는 반면, Retrieval Augmented Generation(RAG)은 GenAI가 답변을 뒷받침하기 위해 기업 내에서 사실을 소싱하는 데 사용하는 메커니즘입니다. 예를 들어, GenAI 챗봇에 주문이 언제 배달될지 묻는 경우, RAG를 사용하여 이행 시스템에 액세스하여 답변을 얻습니다.
GenAI가 기업에서 모델 튜닝과 RAG 데이터를 지원하기 위해 효과적으로 작동하려면 다음이 필요합니다.
데이터에 대한 광범위한 액세스는 GenAI 전략의 첫 번째 요구 사항입니다. 모델을 조정하려면 관련 교육 데이터에 액세스해야 하며 RAG가 작동하려면 모델이 운영 데이터에 액세스할 수 있어야 합니다.
효과적인 모델 튜닝을 위해서는 더 광범위하고 다양한 데이터 세트가 필요합니다. GenAI 모델이 좁은 데이터 세트에만 노출되면 모델을 과적합하고 아무것도 배우지 않고 훈련 데이터 세트를 기억하는 경향이 있습니다. 모델이 학습하고 고유한 특성을 구별하려면 다양한 데이터로 훈련해야 합니다. 이러한 데이터 세트는 차원성을 높이기 위해 조직 전체의 데이터를 표현해야 합니다. 표현이 더 많을수록 AI 모델은 편향이 적고 더 효과적일 것입니다.
조직 내 어디에나 존재할 수 있는 올바른 데이터 세트를 사용하는 것은 GenAI 모델을 튜닝하는 데 필수적입니다. 작고 고품질의 데이터 세트는 크고 저품질의 데이터보다 낫습니다. 저품질의 데이터 세트는 모델을 혼란스럽게 하고 학습을 방해하는 노이즈를 생성합니다. 모든 조직 데이터에 액세스하고 그 품질을 이해하면 GenAI 튜닝을 위한 올바른 교육 데이터를 찾는 데 도움이 됩니다.
GenAI가 조직에서 유용하려면 적절한 맥락에서 적절한 정보에 액세스하여 사용자 질의에 답해야 합니다. 데이터 제품은 사용자 질의에 대한 더 큰 맥락과 개인화를 제공하여 이러한 프로세스를 지원하는 좋은 방법입니다. GenAI와 데이터 제품을 통합함으로써 고객 중심 데이터 제품은 GenAI에 입력하여 더 많은 개인화와 맥락적 응답을 제공할 수 있는 프롬프트나 입력을 제공할 수 있습니다. 데이터 제품은 GenAI가 최상의 데이터를 활용하도록 하는 액세스와 적절한 거버넌스를 제공합니다. 예를 들어, 챗봇은 데이터 제품을 활용하여 커뮤니케이션에 개인적인 인사말을 삽입하거나 이전 구매에 대해 질문하여 경험을 향상시킬 수 있습니다.
GenAI가 감독 없이 독립적으로 학습할 수 있는 고유한 기능은 혁신적이면서도 위험합니다. 이 기술의 "블랙박스" 특성은 성공적인 GenAI 구현을 위해 양질의 데이터를 가장 중요하게 만듭니다. Wakefield Research에 따르면 데이터 리더의 42%가 GenAI와 대규모 언어 모델을 도입하는 데 있어 데이터 품질을 가장 큰 데이터 관련 장애물로 꼽았습니다.
GenAI가 구조화되지 않은 데이터로부터 학습할 수 있는 능력은 또한 기존 AI와 차별화됩니다. 이 데이터는 보통 가장 지저분하고 정리되거나 정리되지 않습니다. RAG 또는 훈련에서 이 구조화되지 않은 데이터를 사용하려면 GenAI가 데이터를 이해하도록 돕기 위해 전처리 및 정규화가 필요합니다.
구조화되지 않은 데이터를 정리하는 것은 구조화된 데이터를 정리하는 것과 다릅니다. 일반적으로 이러한 데이터는 텍스트 형식이며 정리 프로세스에는 다음이 포함됩니다.
생성 AI가 구조화되지 않은 데이터를 처리하는 능력은 게임 체인저입니다. 그러나 훈련 데이터의 일관성 부족은 오류와 환각으로 이어질 수 있습니다. 오류를 완화하려면 데이터 레이블링과 효과적인 메타데이터 관리 전략이 필요하여 더 많은 구조를 제공해야 합니다.
비정형 데이터 주변에 더 많은 구조를 만들면 데이터가 덜 시끄럽고 충돌이 적습니다. 인간은 기계보다 이러한 충돌을 해결하는 데 훨씬 능숙합니다. 모든 데이터베이스에서 메타데이터를 관리하는 강력한 메타데이터 전략은 AI가 의지할 수 있는 단일 진실 소스를 만드는 데 도움이 됩니다. 인간이 AI와 협력하여 데이터에 레이블을 지정하고 분류할 수 있는 메커니즘을 통합하면 조직이 엔터프라이즈 데이터가 GenAI에 준비되었는지 확인하는 데 도움이 됩니다.
GenAI가 안전하고 개인적인 데이터에 대해 자유롭게 접근하도록 하려면 추가적인 제어가 필요합니다. GenAI의 데이터에 대한 갈증은 이 기술이 접근할 수 있는 모든 데이터를 사용하도록 이끕니다. 개인 데이터에 대한 접근 제한이 없으면 RAG 또는 교육 프로세스가 프로토콜을 위반합니다. 모든 데이터를 차단하면 GenAI의 효과가 제한됩니다. GenAI에 대한 데이터와 시스템을 준비하려면 기업은 모델에 제한 사항을 가르치고 모델이 개인 데이터를 부적절하게 공유하지 않도록 하기 위해 세분화된 접근 제어 및 데이터 마스킹 전략이 필요합니다.
혁신적인 GenAI 기술을 위한 데이터를 준비하는 것은 간단한 일이 아닙니다. 기술의 힘은 기술을 모니터링하고 올바르게 작동하도록 보장할 수 있는 숙련된 인간이 필요합니다. GenAI 봇이 데이터와 사용자 간의 게이트웨이가 되면 전통적으로 통찰력에 대한 액세스를 제어했던 분석가는 프로세스에서 제외됩니다. 그들은 어떤 데이터에 액세스하는지, 그리고 데이터가 좋은 품질인지에 대한 제어권을 잃습니다. 이러한 변화는 조직 전체의 의견과 감독을 통합하는 새롭고 더욱 강력한 거버넌스 전략을 요구합니다.
이러한 프로세스를 관리하는 팀에는 다양한 기술이 필요합니다. 그들은 모델의 작동 방식과 기반 기술을 이해하고 이러한 모델의 비즈니스적 의미와 요구 사항을 파악해야 합니다.
GenAI를 위한 데이터 준비의 장점은 GenAI가 프로세스에 도움을 줄 수 있다는 것입니다. AI 도구는 인간이 데이터에 태그를 지정하고 자동으로 철자를 수정하거나 약어를 확장하는 데 도움이 될 수 있습니다. GenAI는 또한 데이터 세트의 갭을 채우기 위해 합성 데이터를 생성할 수 있습니다. 이 기능은 GenAI가 실제 세계 조건을 밀접하게 모방하는 데이터를 제작할 수 있는 곳입니다.
생성적 AI는 스스로에게서 배울 수 있지만 어딘가에서 시작해야 합니다. 시작하는 곳은 끝나는 곳에 큰 영향을 미칩니다. 최상의 품질 데이터로 시작하면 훌륭한 결과를 얻을 수 있는 최상의 위치에 있게 됩니다.