登录

从贝叶斯到大语言模型:一文详解「时序点过程」近年进展


速读:Hawkes过程可以直观描述「过去事件提高未来事件发生概率」的自激效应,但真实世界中的事件影响往往非线性、非平稳、多类型且伴随复杂上下文。 它们彼此影响,却又不服从传统时间序列的整齐采样假设。 Poisson过程假设事件之间彼此独立,可以用固定或随时间变化的强度描述。 Hawkes过程则进一步引入历史依赖:过去的事件会通过触发函数影响未来事件的发生概率。 过去的TPP多半只关心时间和事件类型,而现实事件往往还包含文本、图像、外部知识与语义关系。
2026年06月16日 21:06

机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。

神经元在某个瞬间放电,社交平台上一条帖子突然被转发,地震之后余震接连发生,交易系统里买卖订单以毫秒级速度涌入。这些事件既有发生时间,也可能带有类型、文本、空间位置、图像或其他上下文信息;它们彼此影响,却又不服从传统时间序列的整齐采样假设。

这类数据,正是 时间点过程(Temporal Point Processes, TPPs)试图建模的对象。

近日,来自 中国人民大学、广东工业大学、东南大学 等机构的研究者在 TMLR 发表综述论文 《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》,系统回顾了时间点过程近年来的进展。

与以往侧重统计模型或神经 TPP 的综述不同,这篇论文把 Bayesian TPP、Neural TPP、LLM-based TPP、训练方法、应用场景和开放挑战放在同一个框架下讨论,覆盖文献一直更新到 2025 年。

论文标题:Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches

作者:Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai

论文链接:https://openreview.net/forum?id=SXgGKkShhT

为什么还需要重新梳理 TPP?

TPP 并不是一个新概念。Poisson 过程、Hawkes 过程、自校正过程等经典模型在统计学中已经有很长历史,并被用于电话呼叫到达、地震余震、金融交易、神经 spike train、社交网络传播等任务。

但过去几年,TPP 的研究对象和方法都发生了变化。

首先,传统参数模型可解释,但表达能力有限。Hawkes 过程可以直观描述「过去事件提高未来事件发生概率」的自激效应,但真实世界中的事件影响往往非线性、非平稳、多类型且伴随复杂上下文。

其次,深度学习让 TPP 变得更灵活。RNN、LSTM、Transformer、ODE/SDE、diffusion 等模型被引入事件序列建模后,研究者可以用更强的表示学习能力拟合复杂动态。

第三,大语言模型开始改变 TPP 的边界。过去的 TPP 多半只关心时间和事件类型,而现实事件往往还包含文本、图像、外部知识与语义关系。LLM 的出现让「预测下一个事件」扩展为「理解一段带时间戳的多模态事件历史」。

因此,这篇综述把近年来的 TPP 进展概括为三条主线:

Bayesian TPP: 强调不确定性量化和原则化推断;

Neural TPP: 强调表达能力、可扩展性和端到端预测;

LLM-based TPP: 强调语义理解、多模态建模和更开放的时间推理任务。

TPP 的核心:用强度函数描述「下一件事何时发生」

如果把一个事件序列写成t1, t2, ..., tN,TPP 建模的就是这些时间点在连续时间窗口内如何产生。更一般地,每个事件还可以带有 mark,也就是事件类型,例如 ((t1, k1), ..., (tN, kN))。

论文首先回顾了 TPP 的两个基本表述:条件密度函数和条件强度函数。后者是 TPP 中最核心的概念。直观来说,条件强度函数回答这样一个问题:

在已经观察到过去所有事件的前提下,未来某个很短时间窗口里发生某类事件的瞬时可能性有多大?

Poisson 过程假设事件之间彼此独立,可以用固定或随时间变化的强度描述。Hawkes 过程则进一步引入历史依赖:过去的事件会通过触发函数影响未来事件的发生概率。多变量 Hawkes 过程还能描述不同事件类型之间的相互激发关系,例如买单是否会影响卖单,某个用户的发帖是否会引发其他用户转发。

也正因为这种 「历史影响未来」的机制, TPP 不只适合做预测,也天然适合做因果发现,尤其是 Granger causality 意义下的事件类型依赖关系识别。

第一条路线:Bayesian TPP,让模型知道自己有多不确定

经典参数化 TPP 的问题在于,研究者需要提前假设强度函数的形式。但现实数据常常太复杂,很难用固定函数描述。贝叶斯非参数 TPP 的核心思想是:不要把强度函数限制在某个有限维参数形式里,而是直接把强度函数本身当作无限维对象,并为其设置先验。

论文重点讨论了两类 Bayesian nonparametric TPP:

Bayesian nonparametric Poisson process

Bayesian nonparametric Hawkes process

在 Poisson 场景中,常见做法是用 Gaussian Process 作为函数先验,再通过 link function 保证强度非负。这样一来,模型不仅能拟合复杂的时间变化强度,还能给出后验不确定性。但代价也很明显: 推断非常困难。

论文指出,相关后验往往存在「双重不可解」的问题,一方面似然里包含对时间的积分,另一方面还需要对函数空间积分。因此,研究者发展了 MCMC、Laplace approximation、variational inference、Pólya-Gamma 数据增强等方法来近似推断。

在 Hawkes 过程中,难点进一步增加。因为强度函数通常由背景强度和触发函数两部分组成,二者在似然中耦合。一个常见技巧是引入 branching latent variable,用隐藏变量表示某个事件是由背景过程产生,还是由之前某个事件触发。引入这个变量后,Hawkes 似然可以拆解成与背景强度和触发函数相关的两个部分,从而更容易套用非参数 Poisson 过程中的推断技术。

这条路线的优点很清楚:可解释、能量化不确定性、与统计理论联系紧密。缺点也同样明确:推断复杂,扩展到大规模数据时成本较高。

第二条路线:Neural TPP,用深度模型提升表达能力

深度学习给 TPP 带来的直接变化,是用神经网络替代手工设计的强度函数或条件分布。论文把 Neural TPP 的主流架构分为几类。

第一类是 recurrent neural TPP。 早期代表工作使用 RNN 或 LSTM 逐个读取事件,把历史压缩成 hidden state,再用 hidden state 参数化下一个事件的时间和类型分布。

它的优势是在线预测效率高:历史状态更新完之后,预测下一步可以做到常数时间。但缺点是训练难以并行,长程依赖建模能力有限。论文也特别提到一个新的方向:将 RWKV、S4、Mamba 等高效序列模型与 TPP 结合。这些模型仍具备递归式结构的高效性,同时支持并行训练和长程依赖建模,有望改善传统 RNN-TPP 的可扩展性。

第二类是 autoregressive neural TPP, 典型代表是 Transformer TPP。Transformer 可以通过 self-attention 捕捉长距离事件依赖,并支持并行训练。2020 年之后,大量工作围绕 Transformer TPP 改进时间编码、mark 编码、注意力机制和条件强度函数设计。

但 Transformer 的代价也熟悉:训练复杂度通常随序列长度呈二次增长,长事件流上的时间和显存成本都很高。对于高频交易、日志监控这类超长序列场景,如何降低复杂度仍是关键问题。

第三类是 differential equation-based neural TPP。 RNN 和 Transformer 通常只在事件发生时更新隐藏状态,对事件间隔中的连续时间动态表达不足。ODE/SDE-based TPP 则让隐藏状态在无事件发生时连续演化,在事件发生时发生跳变,从而更自然地刻画连续时间中的条件强度变化。这类方法表达力强,但训练和采样都更慢,因为它们往往需要数值求解微分方程,并反复计算强度函数积分。

此外,论文还讨论了 diffusion-based TPP。与传统自回归模型逐个预测未来事件不同,扩散模型尝试通过迭代去噪生成整段事件序列。这为长时域预测和序列模拟提供了新视角,但也带来计算开销大、时间一致性难保证、似然评估不直接等问题。

不只模型结构,参数化方式也很关键

TPP 中一个容易被忽略的问题是: 神经网络到底应该预测什么? 最常见的做法是预测条件强度函数。但最大似然训练时,强度函数需要在时间窗口上积分,这在神经模型中通常没有闭式解,只能依赖数值积分,影响效率和精度。

因此,近年来不少工作转向 「intensity-free」建模, 直接参数化条件密度函数、条件分布函数或累计强度函数。

例如,用 log-normal mixture 直接建模下一个事件的时间分布,或者用单调神经网络 / 样条函数建模累计强度。这样可以避免数值积分,提高训练和采样效率。论文将这些参数化方式放在一起比较,提醒读者:Neural TPP 的进展不只是换一个更大的 backbone,也包括对概率建模目标本身的重新设计。

第三条路线:LLM-based TPP,事件流开始拥有语义

这篇综述最有新意的部分,是把 LLM-based TPP 纳入时间点过程研究版图。论文认为,LLM-based TPP 可以分为两类。

第一类是 LLM-inspired TPP。 它们并不直接用 LLM 取代 TPP 主干,而是借鉴 prompt learning、reasoning 等思想增强现有神经 TPP。例如 PromptTPP 使用可学习 temporal prompts 适应持续变化的数据分布;LAMP 则引入 LLM 的溯因推理能力,让模型为候选未来事件生成可能原因,再从历史事件中检索证据。

这类方法的优点是相对高效,能增强适应性或可解释性;局限是时间动态本身仍主要由传统神经 TPP 建模。

第二类是 direct LLM-TPP integration, 即直接把 LLM 作为事件序列的核心表示模型。TPP-LLM 将事件用文本描述表示,并通过时间嵌入注入时间信息,再用 LoRA 等参数高效微调方法适配事件预测任务。Language-TPP 则进一步把连续时间间隔编码为 byte-level tokens,让时间和语言进入同一 token 序列,由 LLM 统一建模。

这种方向的意义在于,TPP 不再只处理「时间 + 类型」的二维事件,而开始处理带有自然语言描述、外部知识、多模态上下文的复杂事件流。

论文同时提醒,LLM-based TPP 正在扩展传统 TPP 的边界。经典 TPP 的核心是连续时间事件发生过程的概率律,任务通常包括似然建模、预测、模拟和因果结构发现。而 LLM 引入后,事件序列检索、问答、多模态推理等任务也被纳入讨论。这些任务很有价值,但不一定都是严格意义上的点过程问题。未来社区需要更清楚地区分:哪些任务本质上是 TPP,哪些任务只是把 TPP 作为更大时间推理系统中的一个组件。

数据集和评测:TPP 社区还缺一个真正统一的基准

模型越来越复杂之后,评测问题变得更加重要。论文指出,TPP 研究长期面临数据集碎片化、预处理不一致、训练 / 验证 / 测试划分不同、指标定义不统一等问题。这使得不同论文之间的性能比较并不总是可靠。

近年来,EasyTPP 等统一 benchmark 工具开始缓解这一问题,提供标准化预处理、模型实现、训练流程和评估脚本。论文认为,benchmark 标准化的重要性不亚于新模型本身,因为只有可比较、可复现的实验结果才能真正积累为社区知识。

TPP 的评测任务也在扩展:

next-event prediction: 预测下一个事件的时间和类型;

long-horizon prediction: 预测未来一段窗口内的多个事件;

semantic or multimodal tasks: 面向 LLM-based TPP 的检索、问答、多模态推理等任务;

causal discovery: 识别不同事件类型之间的 Granger 因果关系。

论文总结了一个相对谨慎的经验判断:Transformer-based neural TPP 在复杂数据上的 next-event prediction 往往优于经典参数模型;直接建模条件密度或累计强度的模型通常训练更高效;长时域预测仍然困难;LLM-based 和 multimodal TPP 在语义理解任务上有优势,但在纯时间预测基准上的优势还没有那么明确。

应用:从预测下一次点击,到发现事件之间的因果链

TPP 的应用可以粗略分成两类: 事件预测和因果发现。

事件预测关注未来会发生什么、什么时候发生、属于哪一类。典型场景包括社交网络中的转发预测、疫情传播预测、地震余震预测、金融市场订单预测、推荐系统中的用户行为预测等。

因果发现则更关心事件之间的影响结构。例如在神经科学中,多个神经元的 spike train 可以被视为多变量点过程,研究者希望推断神经元之间是否存在功能连接;在高频金融中,买单和卖单之间的相互影响可以用 Hawkes 过程刻画;在 AIOps 中,系统故障事件的触发关系有助于定位根因;在医疗和网络安全中,事件依赖结构也能帮助理解复杂系统中的传播机制。

这也是 TPP 区别于一般序列预测模型的重要价值: 它不仅试图预测未来,还试图回答「过去的哪些事件以何种方式影响了未来」。

未来挑战:可解释性、可扩展性、采样效率和多模态

论文最后总结了 TPP 领域仍待解决的几个核心挑战。

第一是数据和模型标准化。 事件序列通常具有不规则时间间隔、变长序列、多样 mark 空间和不同时间粒度。不同数据处理方式会显著影响模型表现,也会让论文间比较变得困难。

第二是模型可解释性。 传统 Hawkes 模型中的背景强度和触发函数有明确含义,而神经 TPP 往往把动态编码进高维隐状态中,难以解释过去事件如何影响未来强度。在因果发现、科学建模和决策支持中,这一问题尤其关键。

第三是可扩展性。 真实事件流可能包含数万甚至更多时间戳,而模型还要处理连续时间积分、长程依赖和多类型事件交互。简单把 Transformer 换成 Mamba 或其他高效模块还不够,未来需要理解这些架构如何表示 hazard function、历史依赖和长期时间因果。

第四是采样效率。 经典 thinning 或 inverse transform sampling 需要反复评估强度函数,对复杂神经模型来说代价很高。扩散模型、flow-based 方法、speculative decoding 等方向正在尝试并行或块状生成事件序列,但仍需平衡时间一致性、条件结构和计算成本。

第五是多模态建模。 真实事件往往伴随文本、图像、视频帧、传感器读数等上下文信息。LLM 和多模态大模型为这类问题提供了新工具,但也带来时间对齐、不确定性校准、可控生成等新问题。

结语:TPP 正在从「预测事件时间」走向「理解事件世界」

这篇 TMLR 综述传递出的一个重要信号是: TPP 正处在一个重新汇合的阶段。 统计学传统提供了强度函数、似然、贝叶斯推断和因果解释;深度学习提供了强大的表示能力和端到端预测能力;大语言模型则把文本、知识、多模态和推理能力带入事件序列建模。

未来的 TPP 可能不再只是一个预测「下一个事件何时发生」的模型,而是一个能够理解连续时间中复杂事件流的通用框架。它既要知道时间,也要理解语义;既要能预测,也要能解释;既要足够灵活,也要保留统计建模中的可校准性和可靠性。

对机器学习研究者来说,这意味着  TPP 不是一个偏门的统计工具,而是连接连续时间建模、序列学习、因果发现和大模型推理的重要交叉点。 而这篇综述的价值,正在于它把这些正在分散发展的线索重新放回了一张图里。

主题:模型|时间|事件|论文|进展