یک مطالعه اخیر نشان میدهد که حتی پیشرفتهترین مدلهای هوش مصنوعی با سوالات منطقی ساده دچار مشکل میشوند، یک وضعیت که جامعه هوش مصنوعی را شگفتزده کرده و هوش درک شده این سیستمها را به سوال میکشد. تحقیق جالبی که هنوز به دورهی فیلاده نرسیدهاست، توسط یک تیم از LAION انجام شد که شامل اسامی برجستهای همچون ماریانا نژورینا و جنیا ژیتسوف بود.
«نقطه ضعف آناتومی هوش مصنوعی: یک پرسش منطقی ساده»
مطالعه یک پرتکل منطقی موسوم به مسئله “Alice in Wonderland” یا مسئله AIW ارائه کرد. این سوال شامل یک پازل منطقی درباره روابط خانوادگی است که برای انسانها به راحتی قابل حل است. تحقیق نشان داد که وقتی به مدلهای معروف هوش مصنوعی مانند GPT-3، GPT-4، Claude 3 Opus و دیگران ارائه میشد، معمولاً جوابهای اشتباهی میدادند.
«تنها یک مدل، GPT-4o، به سختی موفق به قبول آزمون شد»، با تصدق نرخ ضعیف “فقط قبول” ۶۵٪ جوابهای صحیح. در مقایسه، دیگران، از جمله نامهای معروف مانند Gemini و گوسفند لاما متا، بسیار تلفتکار بودند، با اینکه برخی از مدلها حتی تقریباً کاملاً شکست خوردند.
«واکنشهای هوش مصنوعی: ترکیبی از اعتماد و ابهام»
پاسخهای نادرست هوشهای مصنوعی یک شکاف نگرانکننده در تواناییهای شناختی آنها روشن کرد. آنها نه تنها در انجام وظیفه ناکام ماندند، بلکه همچنین تمایل مشکوکآوری نشان دادند به توجیه جوابهای اشتباهشان با توضیحات قاطع ولی غیرمنطقی.
چنین شکستهایی نگرانیهای جدی درباره قابلیت اطمینان هوش مصنوعی در انجام وظایف پیچیده و تفکر بحرانی را به وجود آورده است. همچنین به نیاز مشخص به بازبینی معیارها است که برای اندازهگیری کارایی هوش مصنوعی در نظر گرفته شدهاند، همچون امتیازات در آزمون Understanding زبان چندکاره (MMLU) که هوش مصنوعی امتیاز بالاتری گرفتهاست.
«زمان بازنگری در مورد بنچمارک هوش مصنوعی»
مقایسه بین امتیازات بالای MMLU مدلهای هوش مصنوعی و عملکرد ضعیف آنها در مسئله AIW نشان میدهد که بنچمارکهای فعلی ممکن است نتوانند قدرت بهرهبرداری از منطق و تفکر واقعی یک هوش مصنوعی را صحیح ارزیابی کنند. این درک نیازمند بازنگری دقیقی است که چگونگی تفهیم و قابلیت استدلال هوش مصنوعی در جامعه تحقیقاتی بررسی شود.
The source of the article is from the blog smartphonemagazine.nl