چرا هوش مصنوعی Gemini گوگل یک تهدید جدی برای ChatGPT است؟

معرفیGoogle Gemini، مجموعه‌ای از مدل‌های زبان بزرگ (LLM) که تکنیک‌های الهام‌گرفته از AlphaGo را در خود جای داده است، پاسخ استراتژیک Google به ChatGPT را نشان می‌دهد. جمینی با قابلیت‌های چندگانه و دسترسی بالقوه به داده‌های آموزشی اختصاصی گسترده Google از سرویس‌های مختلف، قصد دارد سلطه ChatGPT را در فضای هوش مصنوعی مولد به چالش بکشد. این حرکت بر تعهد گوگل به نوآوری و رقابت هوش مصنوعی در بازار رو به رشد هوش مصنوعی مولد که پیش بینی می شود تا سال 2032 به 1.3 تریلیون دلار برسد، تاکید می کند.

راه اندازی ChatGPT در نوامبر گذشته، پایه های گوگل را تکان داد. چت بات محبوب چنان تهدیدی برای تجارت این شرکت به شمار می‌رفت که مجبور به شروع به سرمایه‌گذاری برای دستیابی به فناوری هوش مصنوعی مولد شد. این تلاش نه تنها به انتشار Google Bard بلکه Google Gemini نیز منجر شده است.

Google Gemini چیست؟

Gemini مجموعه‌ای از مدل‌های زبان بزرگ (LLM) است که از تکنیک‌های آموزشی گرفته‌شده از AlphaGo، از جمله یادگیری تقویتی و جستجوی درختی استفاده می‌کند، که این پتانسیل را دارد که ChatGPT را به‌عنوان غالب‌ترین راه‌حل هوش مصنوعی مولد در این سیاره از بین ببرد.

این خبر تنها چند ماه پس از آن منتشر شد که گوگل آزمایشگاه‌های هوش مصنوعی مغز و DeepMind خود را برای ایجاد یک تیم تحقیقاتی جدید به نام Google DeepMind و تنها چند ماه پس از راه‌اندازی Bard و نسل بعدی آن، PaLM 2 LLM منتشر کرد.

با پیش‌بینی محققان که ارزش بازار هوش مصنوعی مولد تا سال 2032 به 1.3 تریلیون دلار خواهد رسید، واضح است که گوگل در حال سرمایه‌گذاری همه جانبه در این فضا است تا جایگاه خود را به عنوان یک رهبر در توسعه هوش مصنوعی حفظ کند.

آنچه تاکنون در مورد جمینی می دانیم

در حالی که بسیاری انتظار دارند Google Gemini در پاییز 2023 عرضه شود، اطلاعات زیادی در مورد قابلیت های این مدل وجود ندارد.

آگهی ها

در ماه مه، ساندار پیچای، مدیرعامل گوگل و آلفابت، یک پست وبلاگی با نگاهی سطح بالا به LLM منتشر کرد و توضیح داد:

Gemini از ابتدا برای چندجانبه بودن، در ادغام ابزار و API بسیار کارآمد و برای فعال کردن نوآوری‌های آینده مانند حافظه و برنامه‌ریزی ساخته شد.

پیچای همچنین خاطرنشان کرد: «در حالی که هنوز زود است، ما در حال حاضر شاهد قابلیت‌های چندجانبه ی چشمگیر هستیم که در مدل‌های قبلی دیده نشده است.

پس از تنظیم دقیق و تست دقیق ایمنی، Gemini در اندازه‌ها و قابلیت‌های مختلف، درست مانند PalM 2، در دسترس خواهد بود.

از آن زمان تاکنون، به‌علاوه مصاحبه دمیس حسابیس، مدیرعامل Google DeepMind با Wired که گفته بود Gemini «برخی از نقاط قوت سیستم‌های نوع AlphaGo را با قابلیت‌های زبانی شگفت‌انگیز مدل‌های بزرگ ترکیب می‌کند، به‌طور رسمی صحبت‌های زیادی در مورد این نسخه منتشر نشده است».

Android Police همچنین ادعا کرده است که یک منبع ناشناس درگیر با این محصول اظهار داشته است که Gemini قادر خواهد بود متن و تصاویر متنی تولید کند و در منابعی مانند رونوشت های ویدیویی یوتیوب آموزش ببیند.

آیا Gemini تاج را از ChatGPT خواهد گرفت؟

یکی از بزرگترین گفتگوها در مورد انتشار Gemini این است که آیا مدل زبان رمز و راز آنچه لازم است برای حذف ChatGPT که امسال به بیش از 100 میلیون کاربر فعال ماهانه رسید، دارد یا خیر.

در ابتدا، گوگل از توانایی Gemini برای تولید متن و تصاویر استفاده می کرد تا آن را از GPT-4 متمایز کند، اما در 25 سپتامبر 2023، OpenAI اعلام کرد که کاربران می توانند درخواست های صوتی و تصویری را در ChatGPT وارد کنند.

اکنون که OpenAI در حال آزمایش یک رویکرد مدل چندجانبه است و ChatGPT را به اینترنت متصل کرده است، شاید تهدیدکننده‌ترین عامل تمایز بین این دو، مجموعه گسترده داده‌های آموزشی اختصاصی گوگل باشد. Google Gemini می‌تواند داده‌های گرفته شده در سرویس‌ها، از جمله جستجوی Google، YouTube، Google Books و Google Scholar را پردازش کند.

استفاده از این داده‌های اختصاصی در آموزش مدل‌های Gemini می‌تواند منجر به برتری متمایز در پیچیدگی بینش‌ها و استنتاج‌هایی شود که می‌تواند از مجموعه داده‌ها بگیرد. این امر به ویژه در صورتی صادق است که گزارش های اولیه مبنی بر اینکه Gemini با دو برابر بیشتر از GPT-4 توکن آموزش دیده است درست باشد.

علاوه بر این، مشارکت بین تیم‌های Google DeepMind و Brain در سال جاری را نمی‌توان دست کم گرفت، زیرا OpenAI را با تیمی از محققان هوش مصنوعی در سطح جهانی، از جمله سرگئی برین، بنیانگذار Google و هوش مصنوعی ارشد DeepMind، رودررو می‌کند. دانشمند و متخصص یادگیری ماشین پل برهام.

این یک تیم باتجربه است که درک عمیقی از نحوه استفاده از تکنیک‌هایی مانند یادگیری تقویتی و جستجوی درختی برای ایجاد برنامه‌های هوش مصنوعی دارد که می‌تواند بازخورد جمع‌آوری کند و حل مسئله خود را در طول زمان بهبود بخشد، که تیم DeepMind برای آموزش AlphaGo برای شکست دادن Go استفاده کرد. قهرمان جهان 2016.

مسابقه تسلیحاتی هوش مصنوعی

ترکیبی از توانایی‌های چند جانبه جمینی، استفاده از یادگیری تقویتی، قابلیت‌های تولید متن و تصویر، و داده‌های اختصاصی Google، همه اجزایی هستند که Gemini برای عملکرد بهتر از GPT-4به آن نیاز دارد.

داده های آموزشی عامل اصلی تمایز است، در نهایت، سازمانی که در مسابقه تسلیحاتی LLM برنده می شود تا حد زیادی بر اساس اینکه چه کسی مدل های خود را بر روی بزرگترین و غنی ترین مجموعه داده آموزش می دهد، تصمیم گیری می شود.

همانطور که گفته شد، با توجه به اینکه OpenAI بر روی نسل جدید LLM چندوجهی به نام Gobi کار می کند، هنوز نمی توانیم غول هوش مصنوعی مولد را حذف کنیم. اکنون سوال این است که چه کسی هوش مصنوعی چندوجهی را بهتر اجرا می کند؟