先进的人工智能语言模型在简单的逻辑任务中遇到困难

一组国际研究人员最近对几种大型语言模型（LLMs）进行了审查，例如Llama 2、Gemini Pro、GPT-4和Claude 3，以了解它们在人类通常会轻松回答的基本逻辑问题上的表现。每个模型面临的任务非常简单：给出爱丽丝的兄弟（N）和姐妹（M）的数量，爱丽丝的哥哥会有多少个姐姐？虽然大多数成年人和一些儿童可能会立即推断出正确答案——即姐妹和爱丽丝自己一起算，表明她的哥哥会有M+1个姐姐——但人工智能模型的结果却有些令人沮丧。

使用爱丽丝家庭测试人工智能

研究人员称之为《爱丽丝梦游仙境》（AIW）问题的挑战揭示，尽管像GPT-4这样较大、参数密集的模型表现更好，它们仍然取得了有限的成功率。即使是最好的模型——GPT-4o，最好也只能达到65%的准确率。其他模型，包括Meta的Llama 2/3等，在任务中通常失败。

多样的提示，结果不一

该研究使用三种类型的提示来引导模型：一个标准提示要求解决方案及其基本原理，一个思考提示敦促他们重新检查工作，以及一个受限格式提示只需要答案。在每种提示类型的30次试验中，结果被绘制成表格，展示了人工智能在标准基准上的高性能和在AIW测试中较弱的结果之间的鲜明对比。

自信的错误

一项令人担忧的观察是，即使模型犯明显的错误，它们也能令人信服地为其错误答案提供理由。这种现象可能会让用户误以为问题已经得到了正确解决。这种误导性的表述可能涉及毫无意义或不相关的解释或计算。

随着这些语言模型在标准基准上持续取得成功，很明显，当涉及简单逻辑推理时，最新的人工智能仍然需要克服一些挑战。这项原始研究首次由德国网站pcgames.de报道。

重要问题和挑战

从这些发现中出现的最重要问题是：为什么先进的人工智能语言模型在处理简单逻辑推理任务时会遇到困难，而在推断复杂模式和数据集方面却表现出色？考虑到像GPT-4这样的LLMs是在包含逻辑谜题和问题的广泛文献中训练的，预计这些模型在处理基本逻辑时会更加娴熟，这并不算不合理的期望。

人工智能语言建模中的一个关键挑战在于在基准测试中表现良好与以人类方式处理逻辑的不同。基准测试通常设计用于评估人工智能模型在各种任务和数据集上的表现，但它们可能无法准确反映人工智能像人类一样推理或理解上下文的能力。

争议

争议在于人工智能开发者宣传的出色能力与在简单逻辑任务中展现的明显缺陷之间存在差距。公众和人工智能研究社区对此类模型的实际理解和推理能力越来越持怀疑态度。

优势和劣势

优势：
– 语言模型可以快速处理和生成大量文本信息，超越人类速度。
– 它们能够自动化任务，如语言翻译、内容创作和客户支持，节省企业时间和资源。
– 人工智能模型能够从广泛数据集中发现模式和见解，这些见解可能被人类忽视。

劣势：
– 他们在需要常识或简单逻辑推理的任务上往往会失败，误导用户。
– 他们对错误答案的错误信心可能在需要准确信息的应用程序中造成风险，如医疗或法律领域。
– 人工智能在基准测试和现实场景中能力之间的差距可能很大，导致对其能力产生误解。

要了解更多关于人工智能语言模型的开发和评估的内容，教育和研究领域，比如开发了GPT等模型的OpenAI，可以提供有关语言处理人工智能的最新技术的见解。您可以访问该网站：OpenAI。

最后，值得一提的是，解决这些问题以提高人工智能语言模型在逻辑推理方面的能力仍然是人工智能领域内一个活跃且重要的研究领域。