در میان تکامل سریع فناوری هوش مصنوعی، آزمایشگاه تحقیقاتی x.AI الون ماسک مدل هوش مصنوعی پیشرفته Grok-1.5 Vision (Grok-1.5V) را معرفی کرده که با ادغام تفسیر تصویری و زبانی به نحوهای که تاکنون در صنعت دیده نشده است، مرزهای شکستن است. مدلهای هوش مصنوعی قابل مقایسه مانند GPT-4 اکنون توسط Grok-1.5V در درک پیشرفتهای از زمینههای گوناگون عملیاتی شکست خوردهاند.
x.AI که در سال ۲۰۲۳ راهاندازی شد، به خاطر کارهای نوآورانهاش در حال برجسته شدن است و Grok-1.5V به عنوان آخرین پیروزی این شرکت محسوب میشود. با توانایی قابل توجه در درک و تجزیهوتحلیل اطلاعات تصویری پیچیده مانند نمودارها، عکسها و حتی میمها، Grok-1.5V مسیر را برای انقلابی در حوزه هوش مصنوعی آسفالت میکند.
همه گروه به همراه راهاندازی Grok-1.5V، چالش بنچمارک RealWorldQA را مطرح کرده است که به دامنه هوش مصنوعی با بیش از ۷۶۰ پرسش مبتنی بر صحنههای تصویری دست میدهد. این ابتکار به عنوان یک آزمون نوکرهای برای توانایی هوش مصنوعی در درک دنیای ملموس ما عمل میکند. نتایج تا اینجا نشان میدهند که Grok-1.5V بیش از حد واکنش دارد، در حالی که نسل خود را ممکن است دچار مشکل شود.
x.AI یک نگاهی به امکانات عملی میاندازد که Grok-1.5V به زودی ممکن است آنرا به واقعیت تبدیل کند – از نوشتن کد بر اساس نمودارهای ساده تا ترجمه هنر کودکان به داستانهای خواب آور. این برنامهها تا Meta’s OpenEQA benchmark گسترش دارند که در آن مهارت Grok-1.5V در درک محیطهای فیزیکی بیشتر مورد آزمایش قرار خواهد گرفت.
همانطور که x.AI به تقویت توان تفسیری هوش مصنوعی از روشهای گوناگون اطلاعات تمایل دارد، بهبودات نزدیک دستی Grok-1.5V شامل بهبوداتی میشود که شامل تصاویر، صوت و حتی ویدیو میشوند. هم توسعهدهندگان و هم کاربران نهایی در حال دسترسی به یک Grok-1.5V بسیار قدرتمندتر هستند که قول تعریف مجدد تعامل ما با هوش مصنوعی را میدهد.
The source of the article is from the blog cheap-sound.com