معرفیGoogle Gemini، مجموعهای از مدلهای زبان بزرگ (LLM) که تکنیکهای الهامگرفته از AlphaGo را در خود جای داده است، پاسخ استراتژیک Google به ChatGPT را نشان میدهد. جمینی با قابلیتهای چندگانه و دسترسی بالقوه به دادههای آموزشی اختصاصی گسترده Google از سرویسهای مختلف، قصد دارد سلطه ChatGPT را در فضای هوش مصنوعی مولد به چالش بکشد. این حرکت بر تعهد گوگل به نوآوری و رقابت هوش مصنوعی در بازار رو به رشد هوش مصنوعی مولد که پیش بینی می شود تا سال 2032 به 1.3 تریلیون دلار برسد، تاکید می کند.
راه اندازی ChatGPT در نوامبر گذشته، پایه های گوگل را تکان داد. چت بات محبوب چنان تهدیدی برای تجارت این شرکت به شمار میرفت که مجبور به شروع به سرمایهگذاری برای دستیابی به فناوری هوش مصنوعی مولد شد. این تلاش نه تنها به انتشار Google Bard بلکه Google Gemini نیز منجر شده است.
Google Gemini چیست؟
Gemini مجموعهای از مدلهای زبان بزرگ (LLM) است که از تکنیکهای آموزشی گرفتهشده از AlphaGo، از جمله یادگیری تقویتی و جستجوی درختی استفاده میکند، که این پتانسیل را دارد که ChatGPT را بهعنوان غالبترین راهحل هوش مصنوعی مولد در این سیاره از بین ببرد.
این خبر تنها چند ماه پس از آن منتشر شد که گوگل آزمایشگاههای هوش مصنوعی مغز و DeepMind خود را برای ایجاد یک تیم تحقیقاتی جدید به نام Google DeepMind و تنها چند ماه پس از راهاندازی Bard و نسل بعدی آن، PaLM 2 LLM منتشر کرد.
با پیشبینی محققان که ارزش بازار هوش مصنوعی مولد تا سال 2032 به 1.3 تریلیون دلار خواهد رسید، واضح است که گوگل در حال سرمایهگذاری همه جانبه در این فضا است تا جایگاه خود را به عنوان یک رهبر در توسعه هوش مصنوعی حفظ کند.
آنچه تاکنون در مورد جمینی می دانیم
در حالی که بسیاری انتظار دارند Google Gemini در پاییز 2023 عرضه شود، اطلاعات زیادی در مورد قابلیت های این مدل وجود ندارد.
آگهی ها
در ماه مه، ساندار پیچای، مدیرعامل گوگل و آلفابت، یک پست وبلاگی با نگاهی سطح بالا به LLM منتشر کرد و توضیح داد:
Gemini از ابتدا برای چندجانبه بودن، در ادغام ابزار و API بسیار کارآمد و برای فعال کردن نوآوریهای آینده مانند حافظه و برنامهریزی ساخته شد.
پیچای همچنین خاطرنشان کرد: «در حالی که هنوز زود است، ما در حال حاضر شاهد قابلیتهای چندجانبه ی چشمگیر هستیم که در مدلهای قبلی دیده نشده است.
پس از تنظیم دقیق و تست دقیق ایمنی، Gemini در اندازهها و قابلیتهای مختلف، درست مانند PalM 2، در دسترس خواهد بود.
از آن زمان تاکنون، بهعلاوه مصاحبه دمیس حسابیس، مدیرعامل Google DeepMind با Wired که گفته بود Gemini «برخی از نقاط قوت سیستمهای نوع AlphaGo را با قابلیتهای زبانی شگفتانگیز مدلهای بزرگ ترکیب میکند، بهطور رسمی صحبتهای زیادی در مورد این نسخه منتشر نشده است».
Android Police همچنین ادعا کرده است که یک منبع ناشناس درگیر با این محصول اظهار داشته است که Gemini قادر خواهد بود متن و تصاویر متنی تولید کند و در منابعی مانند رونوشت های ویدیویی یوتیوب آموزش ببیند.
آیا Gemini تاج را از ChatGPT خواهد گرفت؟
یکی از بزرگترین گفتگوها در مورد انتشار Gemini این است که آیا مدل زبان رمز و راز آنچه لازم است برای حذف ChatGPT که امسال به بیش از 100 میلیون کاربر فعال ماهانه رسید، دارد یا خیر.
در ابتدا، گوگل از توانایی Gemini برای تولید متن و تصاویر استفاده می کرد تا آن را از GPT-4 متمایز کند، اما در 25 سپتامبر 2023، OpenAI اعلام کرد که کاربران می توانند درخواست های صوتی و تصویری را در ChatGPT وارد کنند.
اکنون که OpenAI در حال آزمایش یک رویکرد مدل چندجانبه است و ChatGPT را به اینترنت متصل کرده است، شاید تهدیدکنندهترین عامل تمایز بین این دو، مجموعه گسترده دادههای آموزشی اختصاصی گوگل باشد. Google Gemini میتواند دادههای گرفته شده در سرویسها، از جمله جستجوی Google، YouTube، Google Books و Google Scholar را پردازش کند.
استفاده از این دادههای اختصاصی در آموزش مدلهای Gemini میتواند منجر به برتری متمایز در پیچیدگی بینشها و استنتاجهایی شود که میتواند از مجموعه دادهها بگیرد. این امر به ویژه در صورتی صادق است که گزارش های اولیه مبنی بر اینکه Gemini با دو برابر بیشتر از GPT-4 توکن آموزش دیده است درست باشد.
علاوه بر این، مشارکت بین تیمهای Google DeepMind و Brain در سال جاری را نمیتوان دست کم گرفت، زیرا OpenAI را با تیمی از محققان هوش مصنوعی در سطح جهانی، از جمله سرگئی برین، بنیانگذار Google و هوش مصنوعی ارشد DeepMind، رودررو میکند. دانشمند و متخصص یادگیری ماشین پل برهام.
این یک تیم باتجربه است که درک عمیقی از نحوه استفاده از تکنیکهایی مانند یادگیری تقویتی و جستجوی درختی برای ایجاد برنامههای هوش مصنوعی دارد که میتواند بازخورد جمعآوری کند و حل مسئله خود را در طول زمان بهبود بخشد، که تیم DeepMind برای آموزش AlphaGo برای شکست دادن Go استفاده کرد. قهرمان جهان 2016.
مسابقه تسلیحاتی هوش مصنوعی
ترکیبی از تواناییهای چند جانبه جمینی، استفاده از یادگیری تقویتی، قابلیتهای تولید متن و تصویر، و دادههای اختصاصی Google، همه اجزایی هستند که Gemini برای عملکرد بهتر از GPT-4به آن نیاز دارد.
داده های آموزشی عامل اصلی تمایز است، در نهایت، سازمانی که در مسابقه تسلیحاتی LLM برنده می شود تا حد زیادی بر اساس اینکه چه کسی مدل های خود را بر روی بزرگترین و غنی ترین مجموعه داده آموزش می دهد، تصمیم گیری می شود.
همانطور که گفته شد، با توجه به اینکه OpenAI بر روی نسل جدید LLM چندوجهی به نام Gobi کار می کند، هنوز نمی توانیم غول هوش مصنوعی مولد را حذف کنیم. اکنون سوال این است که چه کسی هوش مصنوعی چندوجهی را بهتر اجرا می کند؟