Phase 5.2 — Stopping Time

1. 定义

一个取非负整数值(或 $+\infty$)的随机变量 $T$ 是 stopping time,如果对任意 $n \geq 0$:

$${T = n} \in \mathcal{F}_n$$

意思是:在时间 $n$,你能够确定"$T$ 是否等于 $n$“这件事。 你只需要看 $X_0, X_1, \ldots, X_n$,不需要看未来。

用更直白的话说:你到了那个时刻就知道该停了,不需要靠后悔或者回头看。

2. 判定方法

判断一个随机时间 $T$ 是不是 stopping time,核心问题只有一个:

在时间 $n$,仅凭 $X_0, X_1, \ldots, X_n$,能不能判断 $T = n$?

如果能 → stopping time。如果需要看 $X_{n+1}, X_{n+2}, \ldots$ 才能判断 → 不是。

是 stopping time 的例子:

  • 确定性时间: $T = 5$。到了时间 5 你当然知道 $T = 5$。
  • Hitting time: $T = \inf{t \geq 0 : X_t = x}$。在时间 $n$,你检查 $X_n$ 是否等于 $x$,同时检查之前是否已经到过 $x$。只需要看 $X_0, \ldots, X_n$。
  • First exit time: $T = \inf{t \geq 0 : X_t \notin A}$。同理,在时间 $n$ 检查 $X_n$ 是否离开了集合 $A$。
  • 第 $k$ 次访问 $x$: 在时间 $n$,你数一下 $X_0, \ldots, X_n$ 中有几次等于 $x$,够 $k$ 次了就停。只需要历史信息。

不是 stopping time 的例子:

  • $T = \arg\max_{0 \leq t \leq 100} X_t$(最大值出现的时间)。在时间 65,你看到 $X_{65}$ 很大,但你不知道 $X_{66}, \ldots, X_{100}$ 会不会更大。你必须看完整条路径才能确定最大值在哪里。所以 ${T = 65}$ 依赖未来信息,不是 stopping time。

3. 运算规则

如果 $T_1$ 和 $T_2$ 都是 stopping times,哪些运算保持 stopping time 性质?

$\min(T_1, T_2)$:是 stopping time。

为什么?${\min(T_1, T_2) = n}$ 意思是”$T_1$ 和 $T_2$ 中至少一个等于 $n$,并且两个都 $\geq n$"。更精确地写:

$${\min(T_1, T_2) \leq n} = {T_1 \leq n} \cup {T_2 \leq n}$$

${T_1 \leq n}$ 和 ${T_2 \leq n}$ 都在 $\mathcal{F}_n$ 中(因为 ${T_1 \leq n} = \bigcup_{k=0}^{n} {T_1 = k}$,每个 ${T_1 = k} \in \mathcal{F}_k \subseteq \mathcal{F}_n$),所以它们的并集也在 $\mathcal{F}_n$ 中。

$\max(T_1, T_2)$:是 stopping time。

$${\max(T_1, T_2) \leq n} = {T_1 \leq n} \cap {T_2 \leq n}$$

交集仍然在 $\mathcal{F}_n$ 中。

$T_1 + T_2$:是 stopping time(离散时间)。

这个稍微不那么显然。${T_1 + T_2 = n}$ 可以写成:

$${T_1 + T_2 = n} = \bigcup_{k=0}^{n} {T_1 = k} \cap {T_2 = n - k}$$

每个 ${T_1 = k} \in \mathcal{F}_k \subseteq \mathcal{F}_n$,而 ${T_2 = n-k} \in \mathcal{F}_{n-k}$…

等一下,这里有个微妙的地方。$T_2$ 作为 stopping time,${T_2 = n-k} \in \mathcal{F}_{n-k} \subseteq \mathcal{F}_n$。所以每一项都在 $\mathcal{F}_n$ 中,有限并也在 $\mathcal{F}_n$ 中。

$T_1 - T_2$(假设 $T_1 \geq T_2$):不是 stopping time。

这个是 Midterm 2 Q1(1) 考的。为什么不是?

举一个具体反例。设 $X_n$ 是 SRW starting at 0。

  • $T_2 = \inf{t \geq 0 : X_t = 1}$(第一次到 1)
  • $T_1 = \inf{t > T_2 : X_t = 0}$(从 1 回到 0 的第一次)

$T_1$ 和 $T_2$ 都是 stopping times,$T_1 \geq T_2$。

$T_1 - T_2$ 是"从到达 1 之后,回到 0 所花的时间"。

问题在哪里?考虑事件 ${T_1 - T_2 = n}$。这个事件说的是"从 $T_2$ 时刻开始,再走 $n$ 步回到 0"。但 $T_2$ 本身是随机的。在绝对时间 $n$,你不知道 $T_2$ 是什么时候发生的(你当然知道 $T_2$ 是否已经发生,但 $T_1 - T_2 = n$ 这个事件对应的绝对时间是 $T_2 + n$,这是随机的,不是固定的 $n$)。

所以 ${T_1 - T_2 = n}$ 不一定在 $\mathcal{F}_n$ 中。

$T_1 \cdot T_2$:不是 stopping time。

类似的道理。乘积没有保持 stopping time 的结构性质。

4. Midterm 2 中 Stopping Time 判定题的处理

Q1(1): $T_1 \geq T_2$ 都是 stopping times,$T_1 - T_2$ 是 stopping time 吗? → F,上面已经解释了。

Q1(2): $T_1, T_2, T_3$ 三个 stopping times,$T_{(2)}$ 是第二小的。是 stopping time 吗? → T

为什么?$T_{(2)}$ 就是三个中的 median。可以写成:

$$T_{(2)} = \max(\min(T_1, T_2),\ \min(T_1, T_3),\ \min(T_2, T_3))$$

$\min$ 保持 stopping time,$\max$ 也保持 stopping time。所以组合起来仍然是 stopping time。

也可以等价地写成 $T_{(2)} = \text{median}(T_1, T_2, T_3)$,但上面那个分解更直接地用到了我们的运算规则。

Q1(3): $T = \min{t \geq 10 : X_t = X_{t-10}}$。是 stopping time 吗? → T

在时间 $n$($n \geq 10$),你需要检查 $X_n$ 是否等于 $X_{n-10}$。$X_n$ 和 $X_{n-10}$ 都在 $\mathcal{F}_n$ 中(因为 $n - 10 < n$),所以这个判断只需要历史信息。同时你还需要检查之前没有更早的时间满足条件,这也只需要历史信息。所以是 stopping time。

Q1(9): $T = \arg\max_{1 \leq n \leq 10} X_n$。这不是 stopping time。

$Z_i$ 是 i.i.d. 均值 $\mu$,$X_n = \sum_{i=1}^n Z_i$。题目问 $E[X_T] = \mu E[T]$ 是否成立。答案是 F

这里 $T$ 不是 stopping time(需要看完 $X_1, \ldots, X_{10}$ 才知道最大值在哪),所以 Wald’s Identity 的条件不满足,等式不成立。

5. 一个重要的 Stopping Time 类型:Geometric Stopping Time

这个在 Q5(a) 中出现。设 $X_1, X_2, \ldots$ 是 i.i.d. 的,定义

$$T = \inf{n > 0 : X_n \in A}$$

即"第一次落入集合 $A$ 的时间"。

如果每一步落入 $A$ 的概率是 $p = P(X_1 \in A)$,那么 $T$ 服从 geometric 分布,参数为 $p$:

$$P(T = k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \ldots$$$$E[T] = \frac{1}{p}$$

Q5(a) 中 $T = \inf{n > 0 : |X_n| \geq a}$,其中 $X_n \sim N(0,1)$ i.i.d.。每步 $P(|X_n| \geq a) = 2(1 - \Phi(a))$,所以 $T$ 是 geometric with $p = 2(1 - \Phi(a))$,$E[T] = \frac{1}{2(1 - \Phi(a))}$。

6. Phase 5.2 小结

概念要点
定义${T = n} \in \mathcal{F}_n$:到了就知道该停
判定方法问自己"在时间 $n$,只看历史能不能判断 $T=n$?"
保持运算$\min$, $\max$, $+$(离散)
不保持运算$-$, $\times$
Geometric typei.i.d. 过程的 first entrance time,$E[T] = 1/p$

Phase 5.3 — Optional Stopping Theorem (OST)

1. 核心问题

Phase 5.1 建立了一个事实:如果 $(X_n)$ 是 martingale,那么对任意确定性时间 $n$,$E[X_n] = E[X_0]$。

Phase 5.3 的核心问题是:如果 $T$ 是一个随机时间(stopping time),$E[X_T] = E[X_0]$ 还成立吗?

答案是:不一定,需要额外条件。

2. 为什么不能直接成立?两个反例

在讲定理之前,先理解为什么这件事不是免费的。

反例 1: $X_n$ 是 SRW(从 0 出发),$T = \inf{t > 0 : X_t = 5}$。

SRW 是 recurrent 的,所以 $P(T < \infty) = 1$,即一定会到 5。

但 $E[X_T] = 5 \neq 0 = E[X_0]$。

问题在哪里?$T$ 的期望是 $+\infty$(SRW 是 null recurrent 的)。在到达 5 之前,过程可能跑到很远的负数区域,然后慢慢爬回来。这个"跑到很远"的行为破坏了等式。

反例 2: Q5(b) 中的 $Z_n = \sum_{i=1}^n 2^{i-1} Y_i$,$T = \inf{n > 0 : Y_n > 0}$。

$E[T] = 2 < \infty$,停时甚至有有限期望。但 $E[Z_T] = 1 \neq 0 = E[Z_0]$。

问题在哪里?增量 $2^{i-1} Y_i$ 虽然均值为零,但大小在指数增长。到时间 $T$ 为止,过程可能已经走了很大的一步。

这两个反例告诉我们:martingale + stopping time 不够,还需要某种"过程不能跑太远"的控制。

3. Bounded Case(最简单的版本)

引理: 如果 $(X_n)$ 是 martingale,$T$ 是 stopping time,且 $T$ 有界(即存在常数 $m$ 使得 $P(T \leq m) = 1$),那么 $E[X_T] = E[X_0]$。

证明: 这个证明的思路很巧妙,值得完整走一遍。

把 $X_T - X_0$ 写成 telescoping sum(逐步相加的形式):

$$X_T - X_0 = \sum_{k=1}^{T} (X_k - X_{k-1})$$

因为 $T \leq m$,我们可以把求和范围扩展到 $m$,用指示函数控制:

$$X_T - X_0 = \sum_{k=1}^{m} (X_k - X_{k-1}) \cdot \mathbf{1}(k \leq T)$$

这里 $\mathbf{1}(k \leq T)$ 的意思是:如果 $k \leq T$,值为 1;否则为 0。也就是说,只有在 $T$ 还没停的时候,才算入第 $k$ 步的增量。

取期望:

$$E[X_T] - E[X_0] = \sum_{k=1}^{m} E\left[(X_k - X_{k-1}) \cdot \mathbf{1}(k \leq T)\right]$$

现在看每一项。用 tower property,先对 $\mathcal{F}_{k-1}$ 取条件期望:

$$E\left[(X_k - X_{k-1}) \cdot \mathbf{1}(k \leq T)\right] = E\left[E\left[(X_k - X_{k-1}) \cdot \mathbf{1}(k \leq T) ,\Big|, \mathcal{F}_{k-1}\right]\right]$$

关键一步:$\mathbf{1}(k \leq T)$ 在 $\mathcal{F}_{k-1}$ 中是否已知?

${k \leq T}$ 等价于 ${T \geq k}$,也等价于 ${T < k}$ 的补集。

${T < k} = {T \leq k-1} = \bigcup_{j=0}^{k-1} {T = j}$。

每个 ${T = j} \in \mathcal{F}_j \subseteq \mathcal{F}_{k-1}$(因为 $j \leq k-1$)。

所以 ${T < k} \in \mathcal{F}_{k-1}$,从而 ${k \leq T} \in \mathcal{F}_{k-1}$。

这意味着 $\mathbf{1}(k \leq T)$ 在给定 $\mathcal{F}_{k-1}$ 时是已知常数,可以从条件期望中提出来:

$$E\left[(X_k - X_{k-1}) \cdot \mathbf{1}(k \leq T) ,\Big|, \mathcal{F}_{k-1}\right] = \mathbf{1}(k \leq T) \cdot E\left[X_k - X_{k-1} ,\Big|, \mathcal{F}_{k-1}\right]$$

而 $(X_n)$ 是 martingale,所以 $E[X_k - X_{k-1} | \mathcal{F}_{k-1}] = X_{k-1} - X_{k-1} = 0$。

因此每一项都等于 0,求和也等于 0,所以 $E[X_T] = E[X_0]$。$\square$

这个证明的核心 insight: ${k \leq T}$ 是关于"过去是否已经停了"的信息,所以它属于 $\mathcal{F}_{k-1}$。这是 stopping time 定义的直接推论。

4. 一般版本的 OST

Bounded case 太强了——实际问题中 $T$ 经常是无界的(比如 Q2 和 Q3 中的 hitting times)。我们需要放宽条件。

定理(Optional Stopping Theorem): 设 $(X_n)$ 是 martingale,$T$ 是 stopping time。如果以下两个条件都满足:

(i) $E[|X_T|] < \infty$

(ii) $\lim_{n \to \infty} E\left[|X_n| \cdot \mathbf{1}(T > n)\right] = 0$

那么 $E[X_T] = E[X_0]$。

条件 (i) 的意思: 停下来的时候,$X_T$ 的期望不能爆掉。

条件 (ii) 的意思: 随着 $n \to \infty$,在那些"还没停"的路径上,$X_n$ 的贡献要趋向于零。直观地说,如果 $T$ 很大的路径上 $X_n$ 也很大,就会出问题(回忆反例 1:SRW 在 $T$ 很大时可能在很远的负数区域)。

5. OST 的证明思路

证明用的是 truncation(截断) 的方法。

定义 $T_m = \min(T, m)$。$T_m$ 一定是 bounded stopping time($T_m \leq m$),所以由 bounded case:

$$E[X_{T_m}] = E[X_0] \quad \text{对所有 } m$$

现在我们要让 $m \to \infty$,证明 $E[X_{T_m}] \to E[X_T]$。

把 $X_{T_m}$ 拆开:

$$X_{T_m} = \begin{cases} X_T & \text{如果 } T \leq m \ X_m & \text{如果 } T > m \end{cases}$$

用数学写:$X_{T_m} = X_T \cdot \mathbf{1}(T \leq m) + X_m \cdot \mathbf{1}(T > m)$

所以:

$$E[X_{T_m}] = E[X_T \cdot \mathbf{1}(T \leq m)] + E[X_m \cdot \mathbf{1}(T > m)]$$

而 $E[X_T] = E[X_T \cdot \mathbf{1}(T \leq m)] + E[X_T \cdot \mathbf{1}(T > m)]$

两式相减取绝对值:

$$|E[X_{T_m}] - E[X_T]| \leq E[|X_m| \cdot \mathbf{1}(T > m)] + E[|X_T| \cdot \mathbf{1}(T > m)]$$
  • 第一项 $\to 0$:这就是条件 (ii)
  • 第二项 $\to 0$:因为 $E[|X_T|] < \infty$(条件 (i)),且 $\mathbf{1}(T > m) \to 0$ a.s.(因为 $T < \infty$ a.s.),由 Dominated Convergence Theorem 得到

所以 $E[X_{T_m}] \to E[X_T]$。又因为 $E[X_{T_m}] = E[X_0]$ 对所有 $m$ 成立,所以 $E[X_T] = E[X_0]$。$\square$

6. 实际使用中最常用的推论

一般版本的条件 (ii) 在实际验证中不太方便。以下推论给出了一个更容易检查的充分条件:

推论: 设 $(X_n)$ 是 martingale,$T$ 是 stopping time,$P(T < \infty) = 1$。如果存在常数 $B > 0$ 使得:

$$P(|X_n| \leq B \text{ for all } n \leq T) = 1$$

即"在停下来之前,过程始终有界",那么 OST 成立:$E[X_T] = E[X_0]$。

为什么这个推论成立?因为 $|X_n| \leq B$ for all $n \leq T$,所以:

  • 条件 (i):$|X_T| \leq B$,自然 $E[|X_T|] \leq B < \infty$
  • 条件 (ii):$|X_n| \cdot \mathbf{1}(T > n) \leq B \cdot \mathbf{1}(T > n)$。因为 $P(T < \infty) = 1$,$\mathbf{1}(T > n) \to 0$ a.s.,所以 $E[|X_n| \cdot \mathbf{1}(T > n)] \leq B \cdot P(T > n) \to 0$

这个推论在 Midterm 2 中反复使用:

  • Q2(a): Stopped process $X_{t \wedge T_a}$ 满足 $0 \leq X_{t \wedge T_a} \leq \frac{3}{2}a$(bounded),所以 OST 适用
  • Q3(b): $|X_{n \wedge T}| \leq a$ for all $n$(在退出 ${-a+1, \ldots, a-1}$ 之前),所以 $M_{n \wedge T}(\theta) \leq e^{|\theta|a}$(bounded),OST 适用

7. 还有一个版本:通过 Uniform Integrability

这个版本会在 Phase 5.4 详细讲,但先在这里提一句它的存在:

定理: 如果 $(X_n)$ 是 uniformly integrable martingale,$T$ 是任意 stopping time(甚至可以取 $+\infty$),那么 $E[X_T] = E[X_0]$。

这是最强的版本。Q2(b) 的解法就是用的这个版本——先证 stopped process 是 UI,然后对可能无穷的 $T_a$ 直接用 OST。

8. OST 的应用模板

考试中用 OST 解题的步骤是固定的:

Step 1: 构造一个 martingale $(X_n)$,使得 $X_T$ 包含你想求的量。

Step 2: 确定 stopping time $T$ 是什么。

Step 3: 验证 OST 的条件。最常用的方法是:

  • 证明过程在 $T$ 之前有界(用推论)
  • 或者证明 stopped process 是 UI

Step 4: 写下等式 $E[X_T] = E[X_0]$。

Step 5: 把 $E[X_T]$ 按 $X_T$ 的可能取值展开(通常 $T$ 是 hitting time,$X_T$ 只有几个可能的值),解方程。

9. 用 Gambler’s Ruin 做一个完整 walkthrough

这个例子课上讲过,是 OST 最经典的应用。我完整走一遍这个模板。

问题: $X_n$ 是 SRW,$X_0 = a$($0 < a < c$),$T = \inf{t \geq 0 : X_t \in {0, c}}$。求 $P(X_T = c)$。

Step 1: $X_n$ 本身就是 martingale(partial sum 型,增量 $\pm 1$ 均值为零)。

Step 2: $T$ 是 first exit time from ${1, 2, \ldots, c-1}$,是 stopping time。

Step 3: 在 $T$ 之前,$X_n$ 始终在 ${0, 1, \ldots, c}$ 中,所以 $|X_n| \leq c$ for all $n \leq T$。推论适用。

Step 4: $E[X_T] = E[X_0] = a$。

Step 5: $X_T$ 只能取 0 或 $c$。设 $p = P(X_T = c)$。

$$E[X_T] = c \cdot p + 0 \cdot (1 - p) = cp$$

所以 $cp = a$,$p = a/c$。

10. Phase 5.3 小结

概念要点
Bounded OST$T \leq m$ → $E[X_T] = E[X_0]$,证明用 telescoping + indicator 提出
General OST两个条件:$E[\|X_T\|] < \infty$ 和 tail condition
实用推论过程在 $T$ 之前有界 → OST 成立
UI 版本UI martingale + 任意 stopping time → OST 成立(最强)
应用模板构造 MG → 确定 $T$ → 验证条件 → $E[X_T]=E[X_0]$ → 解方程

Phase 5.4 — Martingale Convergence Theorem + Uniform Integrability

1. 核心问题

Phase 5.3 问的是"停下来的时候期望不变吗"($E[X_T] = E[X_0]$?)。

Phase 5.4 问的是一个不同的问题:如果我们不停,让 $n \to \infty$,$(X_n)$ 会收敛吗?收敛到什么?收敛之后期望还相等吗?

这三个问题的答案分别由 MCT、UI、以及它们的结合来回答。

2. Martingale Convergence Theorem (MCT)

定理: 设 $(X_n)_{n \geq 0}$ 是 martingale,且

$$\sup_{n \geq 0} E[X_n^+] < +\infty$$

那么存在一个随机变量 $X_\infty$,使得 $X_n \to X_\infty$ almost surely。

这里 $X_n^+ = \max(X_n, 0)$ 是 $X_n$ 的正半部分。

条件的含义: “正半部分的期望不能往无穷跑”。因为 martingale 满足 $E[X_n] = E[X_0]$(常数),如果正半部分有界,负半部分也自动有界(因为 $E[X_n^-] = E[X_n^+] - E[X_n]$)。所以这个条件等价于 $\sup_n E[|X_n|] < \infty$($L^1$ bounded)。

一个特别重要的特殊情况: 如果 $(X_n)$ 是非负 martingale($X_n \geq 0$ for all $n$),那么 $X_n^+ = X_n$,$E[X_n^+] = E[X_n] = E[X_0] < \infty$。条件自动满足。

所以:非负 martingale 一定 a.s. 收敛。(这就是 Q1(5) 考的内容)

3. MCT 的证明思路(Up-crossing argument)

考试不太会考证明细节,但理解思路有助于记住定理。

想象你用一个交易策略:当 $X_n$ 跌到 $a$ 以下时买入,涨到 $b$ 以上时卖出。每次从 $a$ 到 $b$ 叫一次 up-crossing

如果 $X_n$ 不收敛(比如在 $a$ 和 $b$ 之间无限振荡),那么 up-crossing 次数就是无穷。

但是可以证明,$n$ 步之内的 up-crossing 次数 $U_n$ 满足:

$$E[U_n] \leq \frac{E[X_n^+] + |a|}{b - a}$$

右边被 $\sup E[X_n^+]$ 控制住了,所以 $E[U_n]$ 有界。令 $n \to \infty$,$U_\infty = \lim U_n$ 的期望有限,因此 $U_\infty < \infty$ a.s.。

这对所有有理数对 $a < b$ 都成立。所以 a.s. 不存在任何区间被无限振荡穿越,即 $X_n$ 一定收敛。

4. MCT 的局限性:收敛不保证期望相等

MCT 告诉你 $X_n \to X_\infty$ a.s.,但没有说 $E[X_\infty] = E[X_0]$。

反例(课上讲过,也是 Q2(a) 的核心):

$X_0 = 1$,$X_t = \prod_{i=1}^t W_i$,其中 $W_i$ 取 $3/2$ 或 $1/2$ 各概率 $1/2$。

这是非负 martingale($E[W_i] = 1$),所以 MCT 保证 $X_n \to X_\infty$ a.s.。

现在算 $X_\infty$ 是什么。取对数:

$$\log X_t = \sum_{i=1}^t \log W_i$$

$\log W_i$ 是 i.i.d. 的,均值为:

$$E[\log W_i] = \frac{1}{2} \log\frac{3}{2} + \frac{1}{2}\log\frac{1}{2}$$

算一下:$\log(3/2) \approx 0.405$,$\log(1/2) \approx -0.693$。

$$E[\log W_i] = \frac{1}{2}(0.405) + \frac{1}{2}(-0.693) = \frac{1}{2}(0.405 - 0.693) = \frac{1}{2}(-0.288) < 0$$

由 Strong Law of Large Numbers:

$$\frac{1}{t}\log X_t = \frac{1}{t}\sum_{i=1}^t \log W_i \to E[\log W_i] < 0 \quad \text{a.s.}$$

所以 $\log X_t \to -\infty$,即 $X_t \to 0$ a.s.。

因此 $X_\infty = 0$ a.s.。但 $E[X_t] = E[X_0] = 1$ 对所有 $t$ 成立。

所以 $E[X_\infty] = 0 \neq 1 = E[X_0]$。

发生了什么? 直观上,绝大多数路径都在衰减到 0,但极少数路径跑到了非常大的值,把期望撑住在 1。a.s. 收敛捕捉了"大多数路径"的行为,但期望被那些极端路径主导了。

这就引出了下一个概念:Uniform Integrability

5. Uniform Integrability (UI) 定义

定义: 一族随机变量 ${X_n}_{n \geq 0}$ 是 uniformly integrable 的,如果:

$$\lim_{K \to \infty} \sup_{n \geq 0} E\left[|X_n| \cdot \mathbf{1}(|X_n| \geq K)\right] = 0$$

我来仔细拆解这个定义,因为它有三层结构:

最内层: $E\left[|X_n| \cdot \mathbf{1}(|X_n| \geq K)\right]$

这是"$|X_n|$ 在超过阈值 $K$ 的部分的期望贡献"。你可以把 $E[|X_n|]$ 想象成一个积分,这一项只算 $|X_n| \geq K$ 那一块的面积。

中间层: $\sup_{n \geq 0}$

所有时间 $n$ 上取最大值。这就是"uniform"的含义——不是说某一个 $n$ 的尾巴小就行,而是所有 $n$ 的尾巴同时小

外层: $\lim_{K \to \infty} \ldots = 0$

当阈值 $K$ 趋向无穷时,上面那个 sup 趋向于 0。

直观含义: 没有任何一个 $X_n$ 把太多"质量"放在极端值上。所有 $X_n$ 的尾巴统一地可以被截断控制。

6. Q1(6) 的陷阱:逐点 vs Uniform

Q1(6): 条件是"对任意 $\varepsilon > 0$ 和任意 $n \geq 0$,存在 $K > 0$(依赖于 $\varepsilon$ 和 $n$)使得 $E[|X_n| \cdot \mathbf{1}(|X_n| \geq K)] \leq \varepsilon$"。问这是否意味着 UI。答案是 F

为什么?题目给的条件中 $K$ 可以依赖于 $n$。也就是说,对不同的 $n$,你可能需要不同的(越来越大的)$K$ 来控制尾巴。

而 UI 要求的是:存在一个 $K$,同时对所有 $n$ 都能控制尾巴到 $\varepsilon$ 以下。

题目给的是逐点可积性(每个 $X_n$ 的尾巴可以控制),而 UI 要求的是一致可积性。逐点不能推出一致,就像逐点收敛不能推出一致收敛一样。

7. UI 的判定方法

方法 1:Bounded → UI

如果 $|X_n| \leq B$ for all $n$(过程有界),那么对 $K > B$:

$$E[|X_n| \cdot \mathbf{1}(|X_n| \geq K)] = 0$$

因为 $|X_n| \geq K > B$ 不可能发生。所以 $\sup_n E[\ldots] = 0$,UI 条件平凡成立。

应用: Q2(a) 中 stopped process $X_{t \wedge T_a} \leq \frac{3}{2}a$ bounded → UI。

方法 2:$L^p$ bounded with $p > 1$ → UI

如果 $\sup_n E[|X_n|^p] < \infty$ 对某个 $p > 1$,那么 $(X_n)$ 是 UI。

为什么?用 Markov inequality:

$$E[|X_n| \cdot \mathbf{1}(|X_n| \geq K)] \leq E\left[\frac{|X_n|^p}{K^{p-1}} \cdot \mathbf{1}(|X_n| \geq K)\right] \leq \frac{E[|X_n|^p]}{K^{p-1}}$$

(第一步是因为在 $|X_n| \geq K$ 上,$|X_n| \leq |X_n|^p / K^{p-1}$)

取 sup:$\sup_n E[|X_n| \cdot \mathbf{1}(|X_n| \geq K)] \leq \frac{\sup_n E[|X_n|^p]}{K^{p-1}} \to 0$ as $K \to \infty$。

应用: Q1(10) 中 $\sup_n E[|X_n|^2] < \infty$($p = 2 > 1$),所以 UI 成立,进而 MCT + UI 给出 $L^1$ 收敛。

方法 3:Doob’s Martingale 自动 UI

如果 $X_n = E[X | \mathcal{F}_n]$(某个可积随机变量 $X$ 关于 filtration 的条件期望),那么 $(X_n)$ 自动是 UI。这个后面在 5.5 会再提到。

应用: Q1(8)。

不是 UI 的判定: 如果 $X_n \to X_\infty$ a.s. 但 $E[X_\infty] \neq \lim E[X_n] = E[X_0]$,那么一定不 UI。

应用: Q2(a) 中 $X_t \to 0$ a.s. 但 $E[X_t] = 1$。如果 UI,MCT + UI 会给出 $E[X_\infty] = E[X_0] = 1$,但 $E[X_\infty] = E[0] = 0$,矛盾。所以不 UI。

8. UI + MCT 的组合:$L^1$ Convergence

定理: 如果 $(X_n)$ 是 martingale,$X_n \to X_\infty$ a.s.,并且 $(X_n)$ 是 UI,那么:

$$E[|X_n - X_\infty|] \to 0 \quad (L^1 \text{ convergence})$$

进而:

$$E[X_\infty] = \lim_{n \to \infty} E[X_n] = E[X_0]$$

这就是 a.s. convergence 和 $L^1$ convergence 之间缺失的桥梁。 MCT 给 a.s. convergence,UI 把它升级为 $L^1$ convergence,从而保证期望相等。

总结一下三者的关系:

  • MCT 条件满足 → $X_n \to X_\infty$ a.s.(路径收敛,但期望不一定对)
  • MCT + UI → $X_n \to X_\infty$ a.s. $E[X_\infty] = E[X_0]$(路径收敛,期望也对)
  • 没有 UI → 可能 $E[X_\infty] \neq E[X_0]$(路径收敛但期望断裂)

9. UI 与 OST 的联系

Phase 5.3 最后提到了一个 OST 的最强版本。现在可以完整地陈述了:

定理: 如果 $(X_n)$ 是 UI martingale,$T$ 是任意 stopping time(可以取 $+\infty$),那么:

$$E[X_T] = E[X_0]$$

其中如果 $T = +\infty$,$X_T$ 定义为 $X_\infty = \lim X_n$(MCT 保证存在)。

逻辑链: $(X_n)$ UI → stopped process $(X_{n \wedge T})$ 也是 UI → $X_{n \wedge T} \to X_T$ a.s. 且 in $L^1$ → $E[X_T] = \lim E[X_{n \wedge T}] = E[X_0]$。

这就是 Q2(b) 的解法核心: $X_{t \wedge T_a}$ bounded → UI → 对可能无穷的 $T_a$ 用 OST → $E[X_{T_a}] = 1$。

10. Q1(7) 和 Q1(8) 的辨析

Q1(7): “存在一个 stopping time 使得 $E[X_T] = E[X_0]$“能否推出 UI?答案 F

找到一个 $T$ 使 OST 成立不能说明什么。比如取 $T = 0$,那 $E[X_T] = E[X_0]$ 永远成立,这不给你任何关于 UI 的信息。UI 是关于整个过程的全局性质,不能被一个特定 stopping time 的行为决定。

Q1(8): $X_n = E[X | \mathcal{F}_n]$,$T$ 是 stopping time。$X_T$ well-defined 且 $E[X_T] = E[X_0]$?答案 T

这是 Doob’s Martingale。$E[X | \mathcal{F}_n]$ 自动是 UI martingale(方法 3)。所以对任意 stopping time $T$,OST 的 UI 版本都适用,$E[X_T] = E[X_0] = E[E[X|\mathcal{F}_0]]$。

11. Q4 中 MCT 的应用:Branching Process 灭绝

这道题是 MCT 的一个漂亮应用,完整走一遍。

设置: $X_0 = 1$,$X_n = \sum_{i=1}^{X_{n-1}} Z_{n,i}$,$E[Z] = 1$,$p$ 非退化。证明灭绝概率为 1。

Step 1: $(X_n)$ 是 martingale。

验证:

$$E[X_n | \mathcal{F}_{n-1}] = E\left[\sum_{i=1}^{X_{n-1}} Z_{n,i} ,\Big|, \mathcal{F}_{n-1}\right]$$

给定 $\mathcal{F}_{n-1}$,$X_{n-1}$ 已知,而 $Z_{n,i}$ 是 i.i.d. 且独立于 $\mathcal{F}_{n-1}$。所以:

$$= X_{n-1} \cdot E[Z] = X_{n-1} \cdot 1 = X_{n-1} \quad \checkmark$$

Step 2: $(X_n)$ 满足 MCT 条件。

$X_n \geq 0$(种群大小非负),所以是非负 martingale。由前面讨论,非负 martingale 自动满足 MCT 条件。

所以 $X_n \to X_\infty$ a.s. 存在。

Step 3: $X_\infty$ 必须是什么?

$X_n$ 是非负整数值的($X_n \in {0, 1, 2, \ldots}$)。

一个整数值的序列如果收敛,那它必须 eventually constant——也就是说,从某个时刻 $N$ 开始,$X_N = X_{N+1} = X_{N+2} = \ldots = X_\infty$。

(为什么?如果一个整数序列收敛到某个极限,那最终它和极限的差距要小于 1。但整数之间的最小距离就是 1,所以唯一的可能是序列最终不变。)

Step 4: $X_\infty$ 不可能是任何正整数 $k \geq 1$。

假设 $X_n$ eventually constant 等于 $k \geq 1$。那么 $X_{n+1} = \sum_{i=1}^k Z_{n+1,i}$。

$X_{n+1}$ 的方差是 $k \cdot \text{Var}(Z)$。因为 $p$ 非退化(不是把全部质量放在 1 上),$\text{Var}(Z) > 0$。

所以 $X_{n+1}$ 的方差严格为正,意味着 $X_{n+1}$ 不是 a.s. 等于 $k$ 的。也就是说,从 $k$ 出发,下一步有正概率离开 $k$。

因此 $k$ 不是 absorbing state,过程不可能永远停在 $k$。对每个 $k \geq 1$ 都是如此。

Step 5: 结论。

$X_\infty$ 必须是非负整数,$X_\infty$ 不能是任何 $k \geq 1$,所以 $X_\infty = 0$ a.s.。过程以概率 1 灭绝。$\square$

12. Phase 5.4 小结

概念要点
MCT$\sup E[X_n^+] < \infty$ → $X_n \to X_\infty$ a.s.;非负 MG 自动满足
UI 定义$\sup_n E[\|X_n\| \cdot \mathbf{1}(\|X_n\| \geq K)] \to 0$,注意"uniform in $n$”
UI 判定bounded → UI;$L^p$ bounded ($p>1$) → UI;Doob’s MG → UI
不 UI 判定$X_n \to X_\infty$ a.s. 但 $E[X_\infty] \neq E[X_0]$ → 不 UI
MCT + UIa.s. convergence 升级为 $L^1$ convergence,$E[X_\infty] = E[X_0]$
UI + OSTUI MG + 任意 stopping time → $E[X_T] = E[X_0]$(最强版 OST)

Phase 5.5 — Doob’s Maximal Inequality + Wald’s Identity

1. Doob’s Maximal Inequality

前面的工具(OST、MCT、UI)都是关于 $X_T$ 或 $X_\infty$ 的——也就是某个特定时刻的值。Doob’s Maximal Inequality 回答一个不同的问题:

过程在一段时间内的最大值有多大?

也就是控制 $\max_{0 \leq t \leq n} |X_t|$ 这个量。

$L^1$ 版本

定理: 设 $(X_n)$ 是 martingale,$a > 0$,那么:

$$P\left(\max_{0 \leq t \leq n} |X_t| \geq a\right) \leq \frac{E[|X_n|]}{a}$$

这个形式跟 Markov inequality 长得很像。Markov inequality 说 $P(|X_n| \geq a) \leq E[|X_n|] / a$。Doob 的版本把 $|X_n|$ 换成了 $\max_{0 \leq t \leq n} |X_t|$——控制的是全程最大值,但右边仍然只涉及终点 $X_n$。

为什么终点就够了?直观上,martingale 的期望不变,所以如果过程在中间某个时刻很大,那从那个时刻到 $n$ 的期望也很大,最终会"反映"在 $E[|X_n|]$ 中。

$L^p$ 版本($p > 1$)

定理: 设 $(X_n)$ 是 martingale,$p > 1$,那么:

$$E\left[\max_{0 \leq t \leq n} |X_t|^p\right] \leq \left(\frac{p}{p-1}\right)^p E[|X_n|^p]$$

这个更强:不仅控制了最大值的概率,还控制了最大值的 $p$ 阶矩。

Q1(10) 就是这个定理的直接应用: $\sup_n E[|X_n|^2] < \infty$($p = 2$),那么:

$$E\left[\max_{0 \leq t \leq n} |X_t|^2\right] \leq 4 \cdot E[|X_n|^2] \leq 4 \cdot \sup_n E[|X_n|^2] < \infty$$

(这里 $(p/(p-1))^p = (2/1)^2 = 4$)

令 $n \to \infty$,用单调收敛定理:

$$E\left[\sup_{n \geq 0} |X_n|^2\right] = \lim_{n \to \infty} E\left[\max_{0 \leq t \leq n} |X_t|^2\right] \leq 4 \cdot \sup_n E[|X_n|^2] < \infty$$

所以答案是 T

2. Doob’s Inequality 在 Q3(c) 中的应用

Q3(c) 是 Doob’s Inequality 最精彩的一个应用,也是这次考试中技巧含量最高的题。我完整走一遍。

目标: 证明 $P\left(\max_{0 \leq t \leq n} X_t \leq \sqrt{2n \log(1/\delta)}\right) \geq 1 - \delta$

等价地,证明 $P\left(\max_{0 \leq t \leq n} X_t \geq b\right) \leq e^{-b^2/(2n)}$,然后取 $b = \sqrt{2n \log(1/\delta)}$。

Step 1:把 $X_t$ 的事件转化为 $M_t(\theta)$ 的事件。

固定 $\theta > 0$。如果 $X_t \geq b$(某个时刻位置很大),那么:

$$M_t(\theta) = e^{\theta X_t - t\lambda(\theta)} \geq e^{\theta b - t\lambda(\theta)}$$

为什么?因为 $X_t \geq b$,所以 $\theta X_t \geq \theta b$。而 $t \leq n$,$\lambda(\theta) \geq 0$,所以 $-t\lambda(\theta) \geq -n\lambda(\theta)$。

因此 $M_t(\theta) \geq e^{\theta b - n\lambda(\theta)}$。

这意味着:

$$\left{\max_{0 \leq t \leq n} X_t \geq b\right} \subseteq \left{\max_{0 \leq t \leq n} M_t(\theta) \geq e^{\theta b - n\lambda(\theta)}\right}$$

左边的事件被右边包含了。所以左边的概率 $\leq$ 右边的概率。

Step 2:对 $M_t(\theta)$ 用 Doob’s $L^1$ Maximal Inequality。

$M_t(\theta)$ 是非负 martingale(Phase 5.1 验证过),所以可以用 Doob 的不等式。但这里要小心——Doob 的 $L^1$ 版本对非负 martingale 有一个更直接的形式:

$$P\left(\max_{0 \leq t \leq n} M_t(\theta) \geq c\right) \leq \frac{E[M_n(\theta)]}{c}$$

取 $c = e^{\theta b - n\lambda(\theta)}$:

$$P\left(\max_{0 \leq t \leq n} M_t(\theta) \geq e^{\theta b - n\lambda(\theta)}\right) \leq \frac{E[M_n(\theta)]}{e^{\theta b - n\lambda(\theta)}}$$

而 $E[M_n(\theta)] = E[M_0(\theta)] = 1$(martingale 性质,$M_0 = e^{\theta \cdot 0 - 0} = 1$)。

所以:

$$P\left(\max_{0 \leq t \leq n} X_t \geq b\right) \leq e^{-\theta b + n\lambda(\theta)}$$

Step 3:用题目给的不等式 bound $\lambda(\theta)$。

题目告诉你(可以不证明地使用):

$$\frac{1}{2}e^\theta + \frac{1}{2}e^{-\theta} \leq e^{\theta^2/2}$$

取对数:

$$\lambda(\theta) = \log\left(\frac{1}{2}e^\theta + \frac{1}{2}e^{-\theta}\right) \leq \frac{\theta^2}{2}$$

代入上面的 bound:

$$P\left(\max_{0 \leq t \leq n} X_t \geq b\right) \leq e^{-\theta b + n\theta^2/2}$$

Step 4:优化 $\theta$。

右边是 $e^{-\theta b + n\theta^2/2}$,这是关于 $\theta$ 的函数。我们想选 $\theta$ 使得指数部分最小。

对指数 $f(\theta) = -\theta b + \frac{n\theta^2}{2}$ 求导:

$$f'(\theta) = -b + n\theta$$

令 $f'(\theta) = 0$:$\theta^* = b/n$。

代回去:

$$f(\theta^*) = -\frac{b}{n} \cdot b + \frac{n}{2} \cdot \frac{b^2}{n^2} = -\frac{b^2}{n} + \frac{b^2}{2n} = -\frac{b^2}{2n}$$

所以:

$$P\left(\max_{0 \leq t \leq n} X_t \geq b\right) \leq e^{-b^2/(2n)}$$

Step 5:代入 $b = \sqrt{2n\log(1/\delta)}$。

$$e^{-b^2/(2n)} = e^{-2n\log(1/\delta)/(2n)} = e^{-\log(1/\delta)} = \delta$$

所以:

$$P\left(\max_{0 \leq t \leq n} X_t \geq \sqrt{2n\log(1/\delta)}\right) \leq \delta$$

取补集:

$$P\left(\max_{0 \leq t \leq n} X_t \leq \sqrt{2n\log(1/\delta)}\right) \geq 1 - \delta \quad \square$$

总结这道题用了什么: Exponential martingale(Phase 5.1)→ 事件包含转化 → Doob’s Inequality → Sub-Gaussian bound on $\lambda(\theta)$ → 优化参数。这是一条完整的推导链。

3. Wald’s Identity

Wald’s Identity 是一个关于独立增量过程stopping time 的工具。

定理(Wald’s Identity): 设 $Y_1, Y_2, \ldots$ 是 i.i.d. 随机变量,$E[|Y_1|] < \infty$。设 $T$ 是 stopping time 且 $E[T] < \infty$。令 $S_n = \sum_{i=1}^n Y_i$。那么:

$$E[S_T] = E[T] \cdot E[Y_1]$$

条件:

  • $Y_i$ 必须是 i.i.d.
  • $T$ 必须是 stopping time
  • $E[T] < \infty$

任何一个条件不满足,等式都可能不成立。

为什么这个和 martingale 有关? 如果 $E[Y_1] = 0$,那么 $S_n$ 是 martingale,Wald 说 $E[S_T] = 0 = E[S_0]$,这就是 OST。如果 $E[Y_1] = \mu \neq 0$,那么 $S_n - n\mu$ 是 martingale,OST 给出 $E[S_T - T\mu] = 0$,即 $E[S_T] = \mu \cdot E[T]$。所以 Wald 本质上是 OST 在 i.i.d. 增量情况下的特殊形式。

4. Q5(a):Wald 的正面应用

设置: $X_1, X_2, \ldots$ i.i.d. $N(0,1)$。$S_n = \sum_{i=1}^n X_i^2$。$T = \inf{n > 0 : |X_n| \geq a}$。求 $E[S_T]$。

Step 1:识别 $T$ 的分布。

每一步 $|X_n| \geq a$ 的概率是 $p = P(|X_1| \geq a) = 2(1 - \Phi(a))$(标准正态的双侧尾概率)。

因为 $X_1, X_2, \ldots$ 是 i.i.d. 的,每步是否"成功”($|X_n| \geq a$)是独立的。$T$ 是第一次成功的时间,所以 $T \sim \text{Geometric}(p)$。

$$E[T] = \frac{1}{p} = \frac{1}{2(1 - \Phi(a))}$$

Step 2:检查 Wald 的条件。

  • $X_i^2$ 是 i.i.d. 的(因为 $X_i$ 是 i.i.d. 的)
  • $E[X_i^2] = 1 < \infty$
  • $T$ 是 stopping time(hitting time 类型)
  • $E[T] = 1/p < \infty$(因为 $p > 0$)

所有条件都满足。

Step 3:应用 Wald。

$$E[S_T] = E[T] \cdot E[X_1^2] = \frac{1}{2(1 - \Phi(a))} \cdot 1 = \frac{1}{2(1 - \Phi(a))}$$

5. Q5(b):Wald 失败的反例

设置: $Y_n$ i.i.d. 取 $\pm 1$ 各概率 $1/2$。$Z_n = \sum_{i=1}^n 2^{i-1} Y_i$。$T = \inf{n > 0 : Y_n > 0}$。

证明 $E[T] = 2$,且 $E[Z_T] \neq E[Z_0]$。

$E[T]$: $T$ 是第一次 $Y_n = 1$ 的时间。每步成功概率 $1/2$,所以 $T \sim \text{Geometric}(1/2)$,$E[T] = 2$。

$Z_T$ 的计算: 在事件 ${T = t}$ 上:

$$Y_1 = -1,\ Y_2 = -1,\ \ldots,\ Y_{t-1} = -1,\ Y_t = 1$$

代入 $Z_T$:

$$Z_T = \sum_{i=1}^{t} 2^{i-1} Y_i = \sum_{i=1}^{t-1} 2^{i-1}(-1) + 2^{t-1}(1)$$

前 $t-1$ 项:

$$\sum_{i=1}^{t-1} 2^{i-1} = 1 + 2 + 4 + \ldots + 2^{t-2} = 2^{t-1} - 1$$

(等比数列求和:首项 1,公比 2,共 $t-1$ 项,和 $= 2^{t-1} - 1$)

所以前 $t-1$ 项的贡献是 $-(2^{t-1} - 1)$,最后一项是 $+2^{t-1}$。

$$Z_T = -(2^{t-1} - 1) + 2^{t-1} = -2^{t-1} + 1 + 2^{t-1} = 1$$

所以无论 $T$ 取什么值,$Z_T = 1$。这意味着 $E[Z_T] = 1$。

但 $Z_0 = 0$(空和),所以 $E[Z_T] = 1 \neq 0 = E[Z_0]$。

为什么 Wald 失败了? 因为 $Z_n$ 的增量是 $2^{n-1} Y_n$,它们不是 i.i.d. 的——第 $n$ 步的增量大小是 $2^{n-1}$,随 $n$ 指数增长。Wald 要求增量 i.i.d.,这个条件被违反了。

6. Doob’s Martingale(补充)

这个概念在 Lec 7 出现,Q1(8) 考了。

定义: 设 $X$ 是一个可积随机变量($E[|X|] < \infty$),$(\mathcal{F}_n)$ 是一个 filtration。定义:

$$M_n = E[X | \mathcal{F}_n]$$

$(M_n)$ 叫做 Doob’s Martingale

为什么是 martingale?

$$E[M_{n+1} | \mathcal{F}_n] = E\left[E[X | \mathcal{F}_{n+1}] ,\Big|, \mathcal{F}_n\right] = E[X | \mathcal{F}_n] = M_n$$

第二个等号用的是 tower property:先对更细的 $\sigma$-algebra 取条件期望,再对更粗的取,等于直接对更粗的取。

关键性质:Doob’s Martingale 自动是 UI。

这意味着对任意 stopping time $T$,$E[M_T] = E[M_0]$。这就是 Q1(8) 答案为 T 的原因。

直观含义: $M_n$ 是"基于当前信息对 $X$ 的最佳预测"。信息越来越多,预测越来越准。在极限 $n \to \infty$,如果 $\mathcal{F}_\infty$ 包含了 $X$ 的所有信息,$M_\infty = X$。

7. Phase 5.5 小结

概念要点
Doob’s $L^1$ Inequality$P(\max \|X_t\| \geq a) \leq E[\|X_n\|]/a$
Doob’s $L^p$ Inequality$E[\max \|X_t\|^p] \leq (p/(p-1))^p \cdot E[\|X_n\|^p]$
Q3(c) 的推导链Exponential MG → 事件包含 → Doob → sub-Gaussian → optimize $\theta$
Wald’s Identityi.i.d. 增量 + stopping time + $E[T]<\infty$ → $E[S_T] = E[T] \cdot E[Y_1]$
Wald 失败增量不 i.i.d.(Q5(b))或 $T$ 不是 stopping time(Q1(9))
Doob’s Martingale$M_n = E[X\|\mathcal{F}_n]$,自动 UI,对任意 $T$ 有 $E[M_T] = E[M_0]$