香港大学——大语言模型赋能城市数据分析

速读：本文全面综述了大语言模型在城市数据分析中的新兴创新与未来研究方向，探讨城市如何生成、组织和利用信息以支持规划与运营决策。大语言模型在城市数据分析中的总体框架。大语言模型（LLMs）在城市分析流程的数据生成中发挥着关键作用，既参与建模前期阶段，也参与建模后阶段。在城市分析流程中，最后一个关键环节是后处理。

来源：Smart Cities 发布时间：2026/4/24 14:09:4

香港大学——大语言模型赋能城市数据分析 | MDPI Smart Cities

论文标题：Unleashing the Potential of Large Language Models in Urban Data Analytics: A Review of Emerging Innovations and Future Research

论文链接： https://doi.org/10.3390/smartcities8060201

期刊名称： Smart Cities

期刊主页： https://www.mdpi.com/journal/smartcities

近日，来自香港大学城市规划与设计系的副教授Jun Ma博士等人在 Smart Cities 期刊上发表了一篇文章。本文全面综述了大语言模型在城市数据分析中的新兴创新与未来研究方向，探讨城市如何生成、组织和利用信息以支持规划与运营决策。通过对178篇论文的系统性分析，考察了LLMs在城市数据分析四大关键阶段——采集、预处理、建模和后分析——中的影响。本综述涵盖交通、城市规划、灾害管理和环境监测等多元城市领域，揭示了LLMs如何变革这些领域的分析方法。提出了一个面向未来研究方向的“3E”框架：扩展信息维度、增强模型能力以及执行高级应用。该框架提供了一种结构化的方法，为致力于将大语言模型融入数据驱动决策流程的研究人员和城市从业者，打造更智能、更可持续的城市环境。

研究过程与结果

本研究严格遵循 PRISMA 系统综述标准，从 Web of Science、IEEE Xplore、PubMed，Scopus、arXiv 五个数据库，筛选出 2023-2024 年间发表的178 篇高质量研究进行深度分析，首次完整揭示了 LLM 如何贯穿城市数据分析的全生命周期，填补了该领域缺乏系统性应用框架的空白。利用多样化的数据源，从交通传感器和空气质量监测器到社交媒体信息流及行政记录，分析应对交通拥堵、环境污染、公共服务效率低下以及基础设施维护等的挑战。

采用PRISMA方法筛选研究

大语言模型在城市数据分析中的总体框架

数据采集与生成是城市数据分析的基础，城市数据分析利用多种数据类型来捕捉城市环境的多维特性。这些数据类型包括结构化数据、视觉信息、文本内容以及专项数据类别。大语言模型（LLM）融入数据采集流程，不仅能优化现有工作流程，还能为城市分析开辟了新的途径。

城市数据分析中使用的代表性数据类型

大语言模型（LLMs）在城市分析流程的数据生成中发挥着关键作用，既参与建模前期阶段，也参与建模后阶段。在建模前阶段，该技术有助于生成在现实世界数据中可能代表性不足的罕见案例，从而确保模型训练更加全面。在建模后阶段，它支持场景对比，并通过让规划者和决策者探索广泛的潜在结果，从而助力决策优化。同时，大语言模型（LLMs）在生成多种数据类型方面发挥多种作用，包括文本到文本的转换、图文配对以及文本到 3D 空间模型的生成。这些能力通过捕捉城市现象的多重维度，使分析更加全面，最终使规划者和决策者能够基于对城市系统更丰富、更细致的理解来制定决策。

数据生成类型

预处理的主要类别有数据质量问题、数据表示问题、数据维度和分布问题。数据预处理将原始城市数据转换为可供分析的格式，同时解决了数据质量、一致性和相关性方面的关键挑战。大语言模型（LLMs）通过自动化和增强预处理任务，显著提升了城市数据分析的效率和可靠性。通过全面解决这些预处理挑战，LLM使城市研究人员和从业者能够从复杂的城市数据中提取更准确的洞察，最终促进城市管理中更明智的决策。

基于大语言模型的城市数据预处理解决方案概述

城市分析建模通过创建计算模型来分析和预测城市现象，从而直接揭示交通模式、土地利用演变、环境影响以及社会经济趋势等动态。大语言模型（LLMs）正通过赋能城市系统建模，使其能够处理复杂关系并支持复杂的决策过程，从而推动该领域实现更具响应性和精细化的方法。大语言模型在城市建模框架中的集成涵盖三个互补领域，及时工程、大语言模型智能体以及基础模型。

城市分析中基于 LLM 建模的概述

在城市分析流程中，最后一个关键环节是后处理。这一阶段对于将复杂的分析结果转化为对决策者和利益相关者更具实用价值的洞见起着至关重要的作用。后处理涉及对建模结果应用额外的工程处理和呈现技术，从而显著提升其可访问性和实用价值。大语言模型（LLMs）的语言特性为城市分析的后处理开辟了新的可能性，提供了处理、解读和呈现复杂城市数据的高级能力。城市分析中利用大语言模型的后处理技术大致可分为三大领域：交互性、可及性、决策支持。

城市分析中常用 LLMs 的后期分析技术

为了指导未来研究并最大限度地发挥大语言模型（LLMs）对城市数据分析的影响，我们提出了“3E”框架，该框架由三个相互关联的支柱组成：扩展信息维度、增强模型能力以及执行高级应用。该框架遵循城市数据工作流的自然演进过程，从数据采集与整合到分析处理，再到实际应用。该框架的结构源于对本综述中审查的178项研究的归纳综合。

未来方向框架

3E框架的第一大支柱是扩展信息维度。该支柱通过强调整合多样化的数据源，包括结构化、非结构化、视觉和时序数据，构建出更全面的城市系统数字化模型。通过打破数据孤岛并实现对领域特定知识的访问，该支柱为更准确、更全面的城市分析奠定了基础。多模态数据的整合以及检索增强生成（RAG）等技术的应用，是揭示城市动态新见解的关键，使大语言模型能够为城市利益相关者提供更具情境相关性且可操作的智能信息。

扩展城市分析信息维度（数据）的未来方向

第二大支柱，增强模型能力，旨在提升大语言模型（LLMs）理解和处理城市环境独特复杂性的能力。该支柱致力于提升LLM的技术能力，开发多模态基础模型，增强时空感知能力，并构建更小、更高效的大规模分析模型。通过提升空间感知、时序推理及跨领域知识迁移能力，确保LLM能够将原始城市数据转化为可操作的智能信息。

城市基础模型

第三大支柱，执行高级应用，致力于将分析领域的突破转化为针对城市系统的实际干预措施。城市分析与社会技术系统模型通常描述了一个操作层，在此层中，分析结果通过规划、模拟和以决策为导向的行动得以落实。本支柱专注于在大规模语言模型（LLM）在城市分析中的实际应用，重点在于优化现有工作流程、促进多智能体协作，并在各类城市领域开发创新应用。通过自动化常规分析任务、促进人机协作以及创建逼真的城市环境模拟，本支柱确保大规模语言模型为城市规划、管理和政策制定带来切实效益。将基于LLM的智能体融入城市工作流程，有望彻底革新决策流程，从而为城市挑战提供更高效、更具适应性且更全面的解决方案。

城市数据分析广泛应用于城市韧性与灾害管理、城市出行与交通系统和可持续城市发展。除此之外，3E框架的设计具有适应性和可扩展性，可应用于众多其他城市场景，包括旅游管理、城市环境分析、建筑能耗管理、公共卫生分析、智能电网优化、垃圾管理等。这些领域各自面临独特的数据挑战、建模需求和应用机遇，均可从该框架提供的结构化方法中获益。在推动大语言模型（LLMs）在城市数据分析领域突破边界的同时，仍需解决若干关键挑战。与城市分析密切相关的三大核心挑战：幻觉与可信度、可扩展性与计算需求，以及伦理与隐私问题。尽管这些问题在计算机科学领域已有所探讨，但其对公共部门决策以及城市分析相关治理结构的影响，目前仍未得到充分研究。

研究总结

本研究系统性地考察了大语言模型在城市数据分析中的应用，并分析了其在分析流程的四个典型阶段，数据采集与生成、预处理、建模和后处理中的影响。涵盖了交通、城市规划、灾害管理和环境监测等多个城市领域，揭示了大语言模型在每个阶段的变革潜力。提出了一个3E框架，以指导未来基于LLM的城市分析方向：扩展信息维度、增强模型能力、实施高级应用，为LLM融入数据驱动型城市决策过程的研究人员和城市从业者提供支持，打造更智能、更可持续的城市环境。

Smart Cities 期刊介绍

主编：Pierluigi Siano, University of Salerno, Italy

发表与智慧城市相关所有领域的研究论文、通讯论文和综述等，主题包括但不限于：智慧城市信息通信技术 (ICT)、面向智慧城市的物联网、智能传感、智能电网和智能基础设施、智能交通和移动、智能能源、智能建筑、智能管理、智能经济、智能医疗等。

主题：城市数据分析|大语言模型