آغاز یک نخستین محققان موفق به کشف روش چند مدیا در یادگیری ماشینی شده‌اند

صنعت یادگیری ماشین اخیراً توسط کشف نخستین باتکامل اپل در زمینه آموزش چند مدیا، غنی‌تر شده است. این روش، که در یک مقاله تحقیقاتی منتشر شده در arxiv.org توضیح داده شده است، شامل آموزش مدل‌های زبان بزرگ (LLMs) با استفاده از ترکیب داده‌های تصویر-عنوان، تصویر-متن متناوب و صرفاً متن است. با گنجاندن هر دو اطلاعات بصری و زبانی، این مدل‌ها قابلیت‌های بهبود یافته ای ارائه داده‌اند که به آن‌ها اجازه می‌دهد وظایفی مانند پاسخ عکس‌ها با متن هوشمند و استنباط معنی زبان طبیعی را انجام دهند.

یکی از یافته‌های کلیدی تحقیقات اپل، تأثیر قابل توجه انتخاب کدگذار تصویر و وضوح تصویر بر عملکرد کلی بود. این عوامل، مشخص شد که تأثیر بیشتری نسبت به طراحی اتصال دیدار-زبان دارند. با بهینه‌سازی این مولفه‌ها، اپل توانست قدرت مدل‌های زبانی خود را بالا برده ویژگی‌های آنها را بهبود بخشد.

آزمایش با یک مدل MM1 با 30 میلیارد پارامتر، توانایی‌های جالب آموزش چند مدیا در سازماندهی را در محیط در دسترس نشان داد. این نخستین افتتاحیه به مدل‌ها اجازه می‌دهد تا وظایف استنباط پیچیده را در میان عکس‌های مختلف انجام دهند که از هشتارهای سنتی “زنجیره فکر” فراتر می‌رود.

رویکرد استراتژیک اپل به عنوان یک “پیروی سریع” به جای یک “حرکت نخستین”، در پیشبرد فناوری‌های نخستین، در پیشرفت‌های حوزه هوش مصنوعی و یادگیری ماشین واضح است. مدیرعامل اجرایی تیم کوک به تازگی سرمایه گذاری سالانه 1 میلیارد دلاری شرکت در استقرار هوش مصنوعی در فناوری‌های موجودشان را تأیید کرد. او اضافه کرد که اپل قصد دارد جزئیات کارهای مستمر خود در حوزه هوش مصنوعی را در انتهای سال فعلی به اشتراک بگذارد و انتظارات اعلامی از طریق WWDC در ژوئن را دارا باشد.

به دور از اینکه اپل در اخذ فناوری‌های مرتبط با هوش مصنوعی از رقبا عقب نشینی کند، آن‌ها اولویت مهمی را به حفظ حریم خصوصی کاربران می‌دهند. با توسعه روش‌هایی که حریم خصوصی کاربران را حفظ می‌کنند و در عین حال قابلیت‌های یادگیری ماشین خود را پیش می‌برند، اپل قصد دارد تا به یک مسئله‌ای که تا الان به خوبی توسط خدمات چت بات موجود رفع نشده، توجه نماید.

سرمایه‌گذاری اپل در آموزش چند مدیا به شبکه‌های عصبی نشان دهنده تعهد آن‌ها برای پیشبرد توانمندی‌های یادگیری ماشین است. این نخستین افتتاحیه نه تنها به رشد سریع در حوزه هوش مصنوعی امکان می‌دهد، بلکه به شرکت توانایی‌های “هوشی” پیشرفته‌ای ارائه می‌دهد. همانطور که اپل در حال نوآوری است، امکانات برای هوش مصنوعی و یادگیری ماشین هرچه بیشتر جذاب‌تر می‌شود.

سوالات متداول

چیست آموزش چند مدیا در یادگیری ماشین؟
آموزش چند مدیا شامل آموزش مدل‌ها با استفاده از ترکیب انواع مختلف داده‌ها مانند تصاویر و متون است. با جایگزینی هر دو اطلاعات بصری و زبانی، مدل‌ها درک عمیقتری پیدا می‌کنند و می‌توانند وظایف پیچیده‌تری را انجام دهند.

چگونه رویکرد آموزش چند مدیا اپل با روش‌های موجود متفاوت است؟
رویکرد آموزش چند مدیا اپل ترکیب داده‌های تصویر-عنوان، تصویر-متن متناوب و تنها متن را برای آموزش مدل‌های زبان بزرگ استفاده می‌کند. این ترکیب منحصر به فرد به مدل‌ها امکان می‌دهد تا اطلاعات بصری و زبانی را با هوش فراهم کنند و در نتیجه توانایی‌های هوش مصنوعی خود را بهبود بخشند.

چرا انتخاب کدگذار تصویر و وضوح تصویر برای عملکرد مهم هستند؟
انتخاب کدگذار تصویر و وضوح تصویر به طور قابل توجهی بر عملکرد مدل‌های یادگیری ماشین تأثیر می‌گذارد. بهینه‌سازی این مولفه‌ها قابلیت مدل‌ها برای پردازش اطلاعات بصری را بهبود می‌بخشد و در نهایت عملکرد کلی آن‌ها را بهبود می‌بخشد.

چگونه اپل به رفع نگرانی‌های حریم خصوصی کاربران در توسعه هوش مصنوعی اشاره می‌کند؟
اپل اهمیت حفظ حریم خصوصی کاربر و توسعه روش‌هایی برای حفظ آن را در هنگام پیشرفت توانایی‌های یادگیری ماشینی خود تشخیص داده است. با اولویت دادن حفظ حریم خصوصی کاربر، اپل قصد دارد راه‌حل‌های هوش مصنوعی ارائه دهد که احترام گذاشته و داده‌های کاربر را محافظت کنند.

چه انتظاراتی از اپل در زمینه پیشرفت‌های هوش مصنوعی داریم؟
اپل قصد دارد جزئیات کارهای مستمر خود در حوزه هوش مصنوعی را در انتهای سال فعلی به اشتراک بگذارد. با انتظار اعلان‌های ممکن در WWDC در ژوئن، می‌توانیم توسعه‌های هیجان‌انگیز و پیشرفت‌های تکنولوژی‌های هوش مصنوعی اپل را پیش‌بینی کنیم.

برای کسب اطلاعات بیشتر درباره اپل و پیشرفت‌های آن در حوزه هوش مصنوعی، می‌توانید وب‌سایت رسمی آن را مشاهده کنید: Apple.

The source of the article is from the blog foodnext.nl