大型语言模型在历史知识领域遭遇挑战：复杂历史问题成解题软肋

来源：科技信息2025-01-20 11:30:07

导读最新研究显示，人工智能在处理复杂历史问题时表现不佳。在NeurIPS会议上公布的研究中，最先进的大型语言模型（LLM）在历史知识测试中的成绩...

最新研究显示，人工智能在处理复杂历史问题时表现不佳。在NeurIPS会议上公布的研究中，最先进的大型语言模型（LLM）在历史知识测试中的成绩令人失望，其中表现最佳的GPT-4Turbo准确率仅为46%。这些模型在基本史实方面尚可，但在深入历史研究时力不从心，经常出错。

研究人员指出，AI模型倾向于从主流历史叙事中推断，难以把握细微历史细节，且在处理某些地区（如撒哈拉以南非洲）的历史问题时表现更差，暴露出训练数据可能存在的偏差。尽管如此，研究团队仍对AI在历史研究中的应用前景保持乐观，并正在改进测试基准，以期开发出更优秀的模型。

关键词：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。