Adakah data anda sedia untuk GenAI?



Listen to this blog
Disclaimer

Tidak syak lagi, GenAI berada dalam kitaran gembar-gembur. Sama ada ia telah mencapai kemuncak awalnya sukar untuk dikatakan, tetapi teknologi ini berpotensi mengganggu cara kita bekerja dan hidup secara asasnya. Bilangan kes penggunaan GenAI dan tempat ia boleh menambah nilai adalah tidak terhingga dan transformatif. Mark Cuban percaya bahawa trilioner pertama akan menjadi inovator yang mengoptimumkan pengewangan AI sebelum orang lain. McKinsey dan Syarikat menganggarkan bahawa GenAI akan memberi kesan ke atas produktiviti yang bersamaan dengan $2.6 hingga $4.4 trilion.

Tetapi persoalannya kekal; adakah manusia dan AI akan bekerjasama dengan lancar, dan bagaimanakah orang akan mengewangkan kreativiti mereka dalam ekosistem yang dikuasai oleh model GenAI yang berkembang pesat? Jalan untuk menjawab soalan-soalan ini akan diturap dengan cabaran, kegagalan dan inovasi. Organisasi perlu bersedia menghadapi gangguan pada masa hadapan. Cara terbaik untuk melakukan ini ialah memastikan data anda, aset terbesar organisasi dalam ekosistem baharu ini, sedia untuk masa hadapan.

Tahun lepas, model Model Bahasa Besar (LLM) pertama seperti ChatGPT-3, Microsoft Copilot dan Google Gemini muncul, yang membawa kepada letupan eksperimen GenAI. Tahun ini, model eksperimen ini akan disempurnakan dan dipindahkan ke dalam pengeluaran. Organisasi memerlukan akses kepada pelbagai set data berkualiti tinggi untuk menskalakan model ini dengan jayanya dan berfungsi dengan berkesan dalam pengeluaran. Organisasi mungkin mendapati bahawa mendapatkan data ini tidak mudah, dan banyak lagi kerja yang perlu dilakukan. Menurut tinjauan Data & Analitis Wavestone , hanya 5% organisasi telah melaksanakan AI Generatif dalam pengeluaran pada skala.

Walaupun organisasi mungkin mempunyai lebih banyak daya tarikan dengan AI tradisional, AI Generatif ialah haiwan yang berbeza dengan keperluan data yang berbeza. AI tradisional bergantung pada pembelajaran diselia, di mana set data yang dipilih susun digunakan untuk melatih model bagi mengenal pasti corak dan hasil. Manakala GenAI memanfaatkan kedua-dua data berstruktur dan tidak berstruktur serta mencipta data sendiri dan bukannya hanya meramalkan hasil. Pembelajaran ini tidak diawasi, jadi model belajar daripada sebarang data yang boleh diaksesnya. GenAI lebih seperti kotak hitam yang kompleks di mana saintis data tidak memahami mengapa model membuat keputusan seperti itu. Kekurangan pemerhatian ini menjadikannya penting bahawa model GenAI mempunyai akses kepada data berkualiti tinggi.

Memohon GenAI untuk Meningkatkan Prestasi Perusahaan

Aplikasi GenAI dalam perusahaan memfokuskan pada memperhalusi model pihak ketiga yang luar biasa seperti ChatGPT. Mencipta model LLM besar yang unik tidak boleh dilaksanakan dari segi ekonomi untuk kebanyakan organisasi, jadi ramai yang melatih model sedia ada menggunakan data perusahaan untuk melaksanakan Generative AI. Ini dikenali sebagai penalaan model.

Semasa penalaan GenAI menyesuaikan model kepada domain, Retrieval Augmented Generation (RAG) ialah mekanisme yang GenAI gunakan untuk mendapatkan fakta dalam perusahaan untuk menyokong jawapannya. Sebagai contoh, jika anda meminta chatbot GenAI apabila pesanan anda akan dihantar, ia akan menggunakan RAG untuk mengakses sistem pemenuhan untuk mendapatkan jawapannya.

Agar GenAI berfungsi dengan berkesan dalam perusahaan untuk menyokong penalaan model dan data RAG mestilah:

  • Boleh diakses
  • Bersih
  • Dilabel
  • selamat

Penyepaduan & Akses Data

Akses luas kepada data ialah keperluan pertama strategi GenAI anda. Untuk menala model anda, mereka memerlukan akses kepada data latihan yang berkaitan, dan untuk RAG berfungsi, model mesti mempunyai akses kepada data operasi.

Model Penalaan

Untuk penalaan model yang berkesan, set data yang lebih luas dan pelbagai diperlukan. Jika model GenAI hanya terdedah kepada set data yang sempit, mereka cenderung untuk melebihkan model dan menghafal set data latihan tanpa mempelajari apa-apa. Untuk model belajar dan membezakan antara ciri yang berbeza, mereka mesti dilatih mengenai data yang berbeza-beza. Set data ini perlu mewakili data dari seluruh organisasi untuk mewujudkan dimensi yang lebih besar. Dengan perwakilan yang lebih besar, model AI akan menjadi kurang berat sebelah dan lebih berkesan.

Menggunakan set data yang betul yang mungkin wujud di mana-mana dalam organisasi anda adalah penting untuk menala model GenAI. Set data yang lebih kecil dan berkualiti tinggi adalah lebih baik daripada data yang besar dan berkualiti rendah. Set data berkualiti rendah menghasilkan bunyi yang mengelirukan model dan mengganggu pembelajaran. Mempunyai akses kepada semua data organisasi dan memahami kualitinya akan membantu anda mencari data latihan yang betul untuk penalaan GenAI.

RAG

Agar GenAI berguna dalam organisasi, ia mesti mempunyai akses kepada maklumat yang sesuai dalam konteks yang betul untuk menjawab pertanyaan pengguna. Produk data ialah cara terbaik untuk menyokong proses ini dengan menyediakan konteks dan pemperibadian yang lebih besar di sekitar pertanyaan pengguna. Dengan menyepadukan produk data dengan GenAI, produk data yang memfokuskan pelanggan boleh memberikan gesaan atau input yang boleh dimasukkan ke dalam GenAI untuk menyampaikan lebih banyak respons peribadi dan kontekstual. Produk data menyediakan akses dan tadbir urus yang sesuai untuk memastikan GenAI memanfaatkan data terbaik. Sebagai contoh, chatbots boleh memanfaatkan produk data untuk memasukkan ucapan peribadi ke dalam komunikasi atau bertanya tentang pembelian sebelumnya, dengan itu meningkatkan pengalaman.

Kualiti dan Integriti

Keupayaan unik GenAI untuk belajar secara bebas tanpa pengawasan menjadikannya revolusioner lagi berbahaya. Sifat teknologi "kotak hitam" menjadikan data berkualiti diutamakan untuk pelaksanaan GenAI yang berjaya. Empat puluh dua peratus pemimpin data menyebut kualiti data sebagai halangan utama berkaitan data untuk penggunaan GenAI dan model bahasa besar, menurut Wakefield Research.

Keupayaan GenAI untuk belajar daripada data tidak berstruktur juga membezakannya daripada AI tradisional. Data ini biasanya paling kucar-kacir dan jarang dibersihkan atau diatur. Untuk menggunakan data tidak berstruktur ini dalam RAG atau latihan anda, prapemprosesan dan normalisasi diperlukan untuk membantu GenAI memahami data.

Membersihkan data tidak berstruktur adalah berbeza daripada membersihkan data berstruktur kerana, biasanya, data ini dalam bentuk teks dan proses pembersihan termasuk:

  • Menyeragamkan bahasa, seperti membetulkan kesilapan ejaan atau memperluaskan singkatan.
  • Mengenal pasti anomali untuk siasatan lanjut ialah satu lagi cara untuk membersihkan data tidak berstruktur anda untuk menyokong GenAI.

Penemuan, Metadata dan Konteks

Keupayaan AI Generatif untuk memproses data tidak berstruktur merupakan pengubah permainan. Walau bagaimanapun, kekurangan konsistensi dalam data latihan boleh menyebabkan kesilapan dan halusinasi. Untuk mengurangkan ralat, pelabelan data dan strategi pengurusan metadata yang berkesan diperlukan untuk menyediakan lebih banyak struktur.

Mencipta lebih banyak struktur di sekitar data tidak berstruktur menjadikan data kurang bising dan bercanggah. Manusia jauh lebih baik dalam menyelesaikan konflik ini daripada mesin. Strategi metadata teguh yang mengurus metadata merentas semua pangkalan data anda membantu mencipta satu sumber kebenaran yang boleh dipercayai oleh AI. Menggabungkan mekanisme yang membolehkan manusia bekerja dengan AI untuk melabel dan mengkategorikan data membantu organisasi memastikan data perusahaan mereka sedia untuk GenAI.

Privasi dan Keselamatan

Membiarkan GenAI melepaskan data selamat dan peribadi anda memerlukan kawalan tambahan. Kegemaran GenAI terhadap data mendorong teknologi untuk menggunakan sebarang data yang boleh diaksesnya. RAG atau proses latihan akan melanggar protokol jika had akses kepada data peribadi tidak ditetapkan. Menghalang semua data anda mengehadkan keberkesanan GenAI. Untuk menyediakan data dan sistem anda untuk GenAI, perusahaan memerlukan strategi untuk kawalan capaian berbutir dan penutupan data untuk mengajar model perkara yang terlarang dan memastikan model tidak berkongsi data peribadi secara tidak wajar.

Memerlukan Pendekatan Pasukan

Menyediakan data untuk teknologi GenAI yang inovatif bukanlah tugas yang mudah. Kuasa teknologi memerlukan manusia yang mahir untuk memantaunya dan memastikan ia beroperasi dengan betul. Apabila bot GenAI menjadi pintu masuk antara data dan pengguna, penganalisis, yang secara tradisinya mengawal akses kepada cerapan, diketepikan daripada proses tersebut. Mereka kehilangan kawalan ke atas data yang diakses dan jika ia berkualiti. Anjakan ini memerlukan strategi tadbir urus baharu dan lebih mantap yang menggabungkan input dan pengawasan dari seluruh organisasi.

Pasukan yang menguruskan proses ini memerlukan set kemahiran yang pelbagai. Mereka perlu memahami cara model berfungsi dan teknologi asas serta memahami implikasi dan keperluan perniagaan model ini.

GenAI Boleh Menyelesaikan Masalahnya Sendiri

Perkara yang menarik tentang menyediakan data untuk GenAI ialah GenAI boleh membantu dalam proses itu. Alat AI boleh membantu manusia mengetag data dan membetulkan ejaan atau mengembangkan singkatan secara automatik. GenAI juga boleh mencipta data sintetik untuk mengisi jurang dalam set data. Keupayaan ini adalah tempat GenAI boleh mengarang data yang hampir meniru keadaan dunia sebenar.

AI Generatif boleh belajar daripada dirinya sendiri, tetapi ia perlu bermula di suatu tempat. Di mana anda bermula akan mempunyai kesan yang mendalam di mana anda berakhir. Bermula dengan data kualiti terbaik akan meletakkan anda pada kedudukan terbaik untuk hasil yang hebat.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent rekap

    Read More

  • Blog

    AI Generatif dalam analisis data - bagaimana AI memudahkan untuk mengakses data

    Read More

  • E-book

    Data tidak berstruktur dengan tindanan data moden

    Read More

Request a Demo TODAY!

Take the leap from data to AI