作者 :邵杰晶、杨晓雯、张博文、陈柏志、魏文达、蔡国豪、董振华、郭兰哲、李宇峰

[🌟] 南京大学LAMDA团队与华为诺亚方舟实验室联合推出ChinaTravel——评估大语言模型旅行规划能力的突破性基准。

[❤️] 基于大语言模型的智能体快速发展,带来了令人兴奋的可能性,其中旅行规划成为极具前景的应用方向。 该领域结合了复杂决策与巨大市场潜力,受到学术界与工业界的广泛关注。 然而,现有基准(如TravelPlanner)存在明显不足——它们未能体现真实旅行规划的多样性与个性化需求,且主要面向西方旅行偏好,难以适配中文用户需求。

ChinaTravel应运而生 :首个专为真实中文旅行场景设计的评测基准。 我们创新性地通过问卷收集旅行偏好,结合神经符号学习技术,构建了具备组合泛化能力的领域专用语言。 该框架支持从可行性、约束满足度到偏好对比的多维度综合评估。

数据最具说服力 :神经符号智能体在旅行规划中展现出显著潜力,约束满足率达到27.9 %——相较纯大语言模型的2.6 %实现了质的飞跃。 在这些亮眼数据之外,我们的研究还揭示了实际部署中的关键挑战,包括开放语言推理与新概念组合处理等。

ChinaTravel不仅测评性能——更为旅行规划能力评估树立了新标准与新视角,为这一动态领域的突破性创新铺平道路。
#研究聚焦 #大语言模型 #智能体 #旅行科技 #智能规划 #南京大学 #人工智能 #语言模型 #智能系统
C’est vraiment impressionnant de voir comment ChinaTravel résout les limitations des benchmarks existants en se concentrant sur les besoins de voyage spécifiques aux utilisateurs chinois. L’amélioration du taux de satisfaction des contraintes est un indicateur clair du potentiel de cette approche. J’espère que ce travail inspirera plus d’innovations dans l’intégration de la personnalisation et de la complexité dans les assistants de voyage intelligents.