这是用户在 2024-10-3 5:14 为 https://app.immersivetranslate.com/pdf-pro/fe607b26-4f15-4ff9-b85a-f6a1ce139726 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

 1. 概率基础


1.1. 概率空间与一点测度理论


任何概率模型的基础是一个概率空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) ,其中

  • Ω Ω Omega\Omega 是包含所有可能结果 ω ω omega\omega 的样本空间,称为基本事件;

  • 事件空间 F 2 Ω F 2 Ω Fsub2^(Omega)\mathcal{F} \subset 2^{\Omega} 是我们希望分配概率的样本空间的子集集合。一个集合 A F A F A inFA \in \mathcal{F} 称为事件;

  • P P P\mathbb{P} 是一种概率测度,它为每个事件 A F A F A inFA \in \mathcal{F} 指派一个概率 P ( A ) [ 0 , 1 ] P ( A ) [ 0 , 1 ] P(A)in[0,1]\mathbb{P}(A) \in[0,1]

示例 1.1.1. 考虑抛掷一个公平硬币两次的实验。我们模型 Ω = { H H , H T , T H , T T } = Ω = { H H , H T , T H , T T } = Omega={HH,HT,TH,TT}=\Omega=\{H H, H T, T H, T T\}= { ω i : i = 1 , , 4 } ω i : i = 1 , , 4 {omega_(i):i=1,dots,4}\left\{\omega_{i}: i=1, \ldots, 4\right\}
F = 2 Ω = { , Ω , { H H } , { H T } , { T H } , { T T } , { H H , H T } , { H H , T H } , { H H , T T } , { H T , T H } , { H T , T T } , { T H , T T } , { H H , H T , T H } , { H H , H T , T T } , { H H , T H , T T } , { H T , T H , T T } } F = 2 Ω = { , Ω , { H H } , { H T } , { T H } , { T T } , { H H , H T } , { H H , T H } , { H H , T T } , { H T , T H } , { H T , T T } , { T H , T T } , { H H , H T , T H } , { H H , H T , T T } , { H H , T H , T T } , { H T , T H , T T } } {:[F=2^(Omega)={O/","Omega","{HH}","{HT}","{TH}","{TT}","{HH","HT}","{HH","TH}","{HH","TT}","{HT","TH}","{HT","TT}","],[{TH","TT}","{HH","HT","TH}","{HH","HT","TT}","{HH","TH","TT}","{HT","TH","TT}}]:}\begin{aligned} & \mathcal{F}=2^{\Omega}=\{\varnothing, \Omega,\{H H\},\{H T\},\{T H\},\{T T\},\{H H, H T\},\{H H, T H\},\{H H, T T\},\{H T, T H\},\{H T, T T\}, \\ &\{T H, T T\},\{H H, H T, T H\},\{H H, H T, T T\},\{H H, T H, T T\},\{H T, T H, T T\}\} \end{aligned}

由于硬币是公平的,每个 4 个基本事件 { H H } , { H T } , { T H } , { T T } { H H } , { H T } , { T H } , { T T } {HH},{HT},{TH},{TT}\{H H\},\{H T\},\{T H\},\{T T\} 具有相同的概率,即 1 / 4 1 / 4 1//41 / 4 ,对于所有 ω Ω ω Ω omega in Omega\omega \in \Omega 来说是 P ( { ω } ) = 1 / 4 P ( { ω } ) = 1 / 4 P({omega})=1//4\mathbb{P}(\{\omega\})=1 / 4 。其中一个不同结果 H T H T HTH T T H T H THT H 发生的概率可以通过求和直观地获得,即 P ( { H T , T H } ) = P ( { H T , T H } ) = P({HT,TH})=\mathbb{P}(\{H T, T H\})= P ( { H T } ) + P ( { T H } ) = 1 / 4 + 1 / 4 = 1 / 2 P ( { H T } ) + P ( { T H } ) = 1 / 4 + 1 / 4 = 1 / 2 P({HT})+P({TH})=1//4+1//4=1//2\mathbb{P}(\{H T\})+\mathbb{P}(\{T H\})=1 / 4+1 / 4=1 / 2 。更一般地,对于 C { 1 , , n } C { 1 , , n } C sub{1,dots,n}C \subset\{1, \ldots, n\} ,我们可以设定
P ( { ω i : i C } ) = P ( i C { ω i } ) = i C P ( { ω i } ) = | C | / 4 . P ω i : i C = P i C ω i = i C P ω i = | C | / 4 . P({omega_(i):i in C})=P(uuu_(i in C){omega_(i)})=sum_(i in C)P({omega_(i)})=|C|//4.\mathbb{P}\left(\left\{\omega_{i}: i \in C\right\}\right)=\mathbb{P}\left(\bigcup_{i \in C}\left\{\omega_{i}\right\}\right)=\sum_{i \in C} \mathbb{P}\left(\left\{\omega_{i}\right\}\right)=|C| / 4 .

注意,然而根据这个定义,事件的并集的概率(意为“至少一个事件发生”)并不总是通过相加得到的:
P ( { H T } { H T , T H } ) = P ( { H T , T H } ) = 1 / 2 3 / 4 = P ( { H T } ) + P ( { H T , T H } ) . P ( { H T } { H T , T H } ) = P ( { H T , T H } ) = 1 / 2 3 / 4 = P ( { H T } ) + P ( { H T , T H } ) . P({HT}uu{HT,TH})=P({HT,TH})=1//2!=3//4=P({HT})+P({HT,TH}).\mathbb{P}(\{H T\} \cup\{H T, T H\})=\mathbb{P}(\{H T, T H\})=1 / 2 \neq 3 / 4=\mathbb{P}(\{H T\})+\mathbb{P}(\{H T, T H\}) .

原因在于:这些事件不是不相交的!在上述模型中,我们可以例如将“第一次掷出正面”识别为事件 { H H , H T } { H H , H T } {HH,HT}\{H H, H T\} ,其概率为 1 / 2 1 / 2 1//21 / 2 ,或者将“至少出现一次正面”识别为事件 { H T , T H , H H } { H T , T H , H H } {HT,TH,HH}\{H T, T H, H H\} ,其概率为 3 / 4 3 / 4 3//43 / 4 。对此进行重新表述可以是“反面未出现两次”,其概率可以表示为
3 / 4 = 1 1 / 4 = 1 P ("tails appears twice") = 1 P ( { T T } ) = 1 P ( Ω { H T , T H , H H } ) . 3 / 4 = 1 1 / 4 = 1 P  ("tails appears twice")  = 1 P ( { T T } ) = 1 P ( Ω { H T , T H , H H } ) . 3//4=1-1//4=1-P" ("tails appears twice") "=1-P({TT})=1-P(Omega\\{HT,TH,HH}).3 / 4=1-1 / 4=1-\mathbb{P} \text { ("tails appears twice") }=1-\mathbb{P}(\{T T\})=1-\mathbb{P}(\Omega \backslash\{H T, T H, H H\}) .

为了使这些概念在数学上严谨,我们引入了测度理论的一些基本概念,借此构建一个在一般空间上为集合分配体积的一致理论。首先,我们处理在概率空间中允许的事件空间类型。

定义 1.1.2。如果满足以下所有条件,则称 F 2 Ω F 2 Ω Fsub2^(Omega)\mathcal{F} \subset 2^{\Omega} σ σ sigma\sigma -代数:

(i) Ω F Ω F Omega inF\Omega \in \mathcal{F}
(ii) A F A c := Ω A F A F A c := Ω A F A inFLongrightarrowA^(c):=Omega\\A inFA \in \mathcal{F} \Longrightarrow A^{\mathrm{c}}:=\Omega \backslash A \in \mathcal{F}
(iii) ( A n ) n N F n N A n F A n n N F n N A n F (A_(n))_(n inN)subFLongrightarrowuuu_(n inN)A_(n)inF\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{F} \Longrightarrow \bigcup_{n \in \mathbb{N}} A_{n} \in \mathcal{F}

如果 F F F\mathcal{F} 是一个 σ σ sigma\sigma -代数在 Ω Ω Omega\Omega 上,我们称 ( Ω , F ) ( Ω , F ) (Omega,F)(\Omega, \mathcal{F}) 为可测空间。

引理 1.1.3。任何 σ σ sigma\sigma -代数 F F F\mathcal{F} 都具有以下性质:

 {i} F F O/ inF\varnothing \in \mathcal{F}
(ii) A , B F A B F A , B F A B F A,B inFLongrightarrow A uu B inFA, B \in \mathcal{F} \Longrightarrow A \cup B \in \mathcal{F}
(iii) A , B F A B F A , B F A B F A,B inFLongrightarrow A nn B inFA, B \in \mathcal{F} \Longrightarrow A \cap B \in \mathcal{F}
 (四) ( A n ) n N F n N A n F A n n N F n N A n F (A_(n))_(n inN)subFLongrightarrownnn_(n inN)A_(n)inF\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{F} \Longrightarrow \bigcap_{n \in \mathbb{N}} A_{n} \in \mathcal{F}
(v) A , B F A B F A , B F A B F A,B inFLongrightarrow A\\B inFA, B \in \mathcal{F} \Longrightarrow A \backslash B \in \mathcal{F}
 证明。练习。

例 1.1.4. 最简单的 σ σ sigma\sigma -代数例子是平凡的 σ σ sigma\sigma -代数 F = { , Ω } F = { , Ω } F={O/,Omega}\mathcal{F}=\{\varnothing, \Omega\} 和幂集 F = 2 Ω F = 2 Ω F=2^(Omega)\mathcal{F}=2^{\Omega} (有时称为离散 σ σ sigma\sigma -代数)。

对于不可数空间 Ω Ω Omega\Omega ,幂集 2 Ω 2 Ω 2^(Omega)2^{\Omega} 通常不是一个好的选择,因为它太大了,无法设计出有意义的度量,使得我们能够一致地为 Ω Ω Omega\Omega 的所有子集分配体积(如果你对原因感兴趣,可以查一下巴拿赫-塔斯基悖论)。相反,我们通常从 Ω Ω Omega\Omega 的一个良好子集族 E E E\mathcal{E} 开始,并在包含 E E E\mathcal{E} 的最小 σ σ sigma\sigma -代数中进行工作。

定义 1.1.5. 设 E E E\mathcal{E} Ω Ω Omega\Omega 的一个子集族。则 σ ( E ) σ ( E ) sigma(E)\sigma(\mathcal{E}) 定义为包含 E E E\mathcal{E} σ σ sigma\sigma -代数中最小的 Ω Ω Omega\Omega ,或者等价地,
σ ( E ) := F A F σ ( E ) := F A F sigma(E):=nnn_(FinA)F\sigma(\mathcal{E}):=\bigcap_{\mathcal{F} \in \mathcal{A}} \mathcal{F}

其中 A = { F 2 Ω : F A = F 2 Ω : F A={Fsub2^(Omega):F:}\mathcal{A}=\left\{\mathcal{F} \subset 2^{\Omega}: \mathcal{F}\right. 是一个 σ σ sigma\sigma -代数和 E F } E F {:EsubF}\left.\mathcal{E} \subset \mathcal{F}\right\} 。族 E E E\mathcal{E} 称为 σ ( E ) σ ( E ) sigma(E)\sigma(\mathcal{E}) 的生成元。


练习 1.1.6. 设 Ω Ω Omega\Omega 是一个可数集, E = { { ω } : ω Ω } E = { { ω } : ω Ω } E={{omega}:omega in Omega}\mathcal{E}=\{\{\omega\}: \omega \in \Omega\} 。证明 σ ( E ) = 2 E σ ( E ) = 2 E sigma(E)=2^(E)\sigma(\mathcal{E})=2^{\mathcal{E}}

For our statistical purposes the by far most important σ σ sigma\sigma-algebra is the Borel σ σ sigma\sigma-algebra B ( R ) B ( R ) B(R)\mathcal{B}(\mathbb{R}) over the real numbers R R R\mathbb{R}, which is defined as
对于我们的统计目的,迄今为止最重要的 σ σ sigma\sigma -代数是实数 R R R\mathbb{R} 上的 Borel σ σ sigma\sigma -代数 B ( R ) B ( R ) B(R)\mathcal{B}(\mathbb{R}) ,其定义为
B ( R ) := σ ( { O R : O open } ) B ( R ) := σ ( { O R : O  open  } ) B(R):=sigma({O subR:O" open "})\mathcal{B}(\mathbb{R}):=\sigma(\{O \subset \mathbb{R}: O \text { open }\})
and we will always implicitly equip R R R\mathbb{R} with this σ σ sigma\sigma-algebra when considering it as a measurable space. The Borel σ σ sigma\sigma-algebra has the following simpler characterisation.
我们在将 R R R\mathbb{R} 视为可测空间时,会始终隐式地为其装备这个 σ σ sigma\sigma -代数。Borel σ σ sigma\sigma -代数有以下更简单的表述。
Lemma 1.1.7. All of the following families of sets are generators of B ( R ) B ( R ) B(R)\mathcal{B}(\mathbb{R}) :
引理 1.1.7. 以下所有集合族都是 B ( R ) B ( R ) B(R)\mathcal{B}(\mathbb{R}) 的生成元:

(i) E 1 = { ( a , b ) : < a b < } E 1 = { ( a , b ) : < a b < } E_(1)={(a,b):-oo < a <= b < oo}\mathcal{E}_{1}=\{(a, b):-\infty<a \leq b<\infty\}  E 1 = { ( a , b ) : < a b < } E 1 = { ( a , b ) : < a b < } E_(1)={(a,b):-oo < a <= b < oo}\mathcal{E}_{1}=\{(a, b):-\infty<a \leq b<\infty\}
(ii) E 2 = { [ a , b ] : < a b < } E 2 = { [ a , b ] : < a b < } E_(2)={[a,b]:-oo < a <= b < oo}\mathcal{E}_{2}=\{[a, b]:-\infty<a \leq b<\infty\}
(iii) E 3 = { ( a , b ] : < a b < } E 3 = { ( a , b ] : < a b < } E_(3)={(a,b]:-oo < a <= b < oo}\mathcal{E}_{3}=\{(a, b]:-\infty<a \leq b<\infty\}
(iv) E 4 = { ( , a ) : a R } E 4 = { ( , a ) : a R } E_(4)={(-oo,a):a inR}\mathcal{E}_{4}=\{(-\infty, a): a \in \mathbb{R}\}
(v) E 5 = { ( , a ] : a R } E 5 = { ( , a ] : a R } E_(5)={(-oo,a]:a inR}\mathcal{E}_{5}=\{(-\infty, a]: a \in \mathbb{R}\}

证明。我们只证明 σ ( E 1 ) = B ( R ) σ E 1 = B ( R ) sigma(E_(1))=B(R)\sigma\left(\mathcal{E}_{1}\right)=\mathcal{B}(\mathbb{R}) ,其余的陈述留作练习。由于任何开区间 ( a , b ) ( a , b ) (a,b)(a, b) R R R\mathbb{R} 中都是开放的,我们有 E 1 { O R : O E 1 { O R : O E_(1)sub{O subR:O\mathcal{E}_{1} \subset\{O \subset \mathbb{R}: O 开放 } } }\} ,因此
σ ( E 1 ) σ ( { O R : O open } ) = B ( R ) σ E 1 σ ( { O R : O  open  } ) = B ( R ) sigma(E_(1))sub sigma({O subR:O" open "})=B(R)\sigma\left(\mathcal{E}_{1}\right) \subset \sigma(\{O \subset \mathbb{R}: O \text { open }\})=\mathcal{B}(\mathbb{R})

相反,设 O R O R O subRO \subset \mathbb{R} 为任意开集。回想一下, O O OO 可以表示为可数个开区间的并,即我们可以找到序列 ( a n ) n N , ( b n ) n N a n n N , b n n N (a_(n))_(n inN),(b_(n))_(n inN)\left(a_{n}\right)_{n \in \mathbb{N}},\left(b_{n}\right)_{n \in \mathbb{N}} 使得 O = n N ( a n , b n ) O = n N a n , b n O=uuu_(n inN)(a_(n),b_(n))O=\bigcup_{n \in \mathbb{N}}\left(a_{n}, b_{n}\right) 。由于对所有 n n nn 都有 ( a n , b n ) E 1 σ ( E 1 ) a n , b n E 1 σ E 1 (a_(n),b_(n))inE_(1)sub sigma(E_(1))\left(a_{n}, b_{n}\right) \in \mathcal{E}_{1} \subset \sigma\left(\mathcal{E}_{1}\right) ,因此 σ σ sigma\sigma -代数的性质(iii)意味着
O = n N ( a n , b n ) ϵ σ ( E 1 ) σ ( E 1 ) O = n N a n , b n ϵ σ E 1 σ E 1 O=uuu_(n inN)ubrace((a_(n),b_(n))ubrace)_(epsilon sigma(E_(1)))in sigma(E_(1))O=\bigcup_{n \in \mathbb{N}} \underbrace{\left(a_{n}, b_{n}\right)}_{\epsilon \sigma\left(\mathcal{E}_{1}\right)} \in \sigma\left(\mathcal{E}_{1}\right)

由于 O O OO 是任意选择的,我们得出结论:
{ O R : O open } σ ( E 1 ) { O R : O  open  } σ E 1 {O subR:O" open "}sub sigma(E_(1))\{O \subset \mathbb{R}: O \text { open }\} \subset \sigma\left(\mathcal{E}_{1}\right)
 因此也
B ( R ) = σ ( { O R : O open } ) σ ( E 1 ) B ( R ) = σ ( { O R : O  open  } ) σ E 1 B(R)=sigma({O subR:O" open "})sub sigma(E_(1))\mathcal{B}(\mathbb{R})=\sigma(\{O \subset \mathbb{R}: O \text { open }\}) \subset \sigma\left(\mathcal{E}_{1}\right)

结合(1.1)和(1.2)得到结果。


现在我们已经理解了 σ σ sigma\sigma -代数是什么,让我们继续讨论概率测度的概念。我们先从更一般的开始。

定义 1.1.8. 在可测空间 ( Ω , F ) ( Ω , F ) (Omega,F)(\Omega, \mathcal{F}) 上的度量 μ μ mu\mu 是一个函数 μ : F [ 0 , ] μ : F [ 0 , ] mu:Frarr[0,oo]\mu: \mathcal{F} \rightarrow[0, \infty] ,满足以下属性:

(i) μ ( ) = 0 μ ( ) = 0 mu(O/)=0\mu(\varnothing)=0

如果 ( A n ) n N A n n N (A_(n))_(n inN)\left(A_{n}\right)_{n \in \mathbb{N}} F F F\mathcal{F} 中一组两两不相交的序列,则成立:
μ ( n N A n ) = n N μ ( A n ) μ n N A n = n N μ A n mu(uuu_(n inN)A_(n))=sum_(n inN)mu(A_(n))\mu\left(\bigcup_{n \in \mathbb{N}} A_{n}\right)=\sum_{n \in \mathbb{N}} \mu\left(A_{n}\right)
  σ σ sigma\sigma -可加性)

该测量 μ μ mu\mu 被称为

 有限,如果 μ ( Ω ) < μ ( Ω ) < mu(Omega) < oo\mu(\Omega)<\infty

(ii’) σ σ sigma\sigma -有限,如果在 F F F\mathcal{F} 中存在一个序列 ( A n ) n N A n n N (A_(n))_(n inN)\left(A_{n}\right)_{n \in \mathbb{N}} ,使得对于所有 n n nn 都有 Ω = n N A n Ω = n N A n Omega=uuu_(n inN)A_(n)\Omega=\bigcup_{n \in \mathbb{N}} A_{n} μ ( A n ) < μ A n < mu(A_(n)) < oo\mu\left(A_{n}\right)<\infty


备注 1.1.9。注意,通过取 = A n + 1 = A n + 2 = = A n + 1 = A n + 2 = O/=A_(n+1)=A_(n+2)=cdots\varnothing=A_{n+1}=A_{n+2}=\cdots ,根据 σ σ sigma\sigma -可加性,对于任何有限的、互不相交的集合 A 1 , , A n F A 1 , , A n F A_(1),dots,A_(n)inFA_{1}, \ldots, A_{n} \in \mathcal{F} ,我们有 μ ( A 1 A n ) = k = 1 n μ ( A k ) μ A 1 A n = k = 1 n μ A k mu(A_(1)uu cdots uuA_(n))=sum_(k=1)^(n)mu(A_(k))\mu\left(A_{1} \cup \cdots \cup A_{n}\right)=\sum_{k=1}^{n} \mu\left(A_{k}\right)

定义 1.1.10。在一个可测空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 上的有限测度 P P P\mathbb{P} 称为概率测度,如果 P ( Ω ) = 1 P ( Ω ) = 1 P(Omega)=1\mathbb{P}(\Omega)=1 。三元组 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 称为概率空间。

定义 1.1.11. 概率分布(或简称分布)是对 ( R , B ( R ) ( R , B ( R ) (R,B(R)(\mathbb{R}, \mathcal{B}(\mathbb{R}) 的概率测度。


引理 1.1.12。设 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 为一个概率空间, A , B F A , B F A,B inFA, B \in \mathcal{F} 为任意事件。那么,


如果 A B A B A sub BA \subset B ,则 P ( B A ) = P ( B ) P ( A ) P ( B A ) = P ( B ) P ( A ) P(B\\A)=P(B)-P(A)\mathbb{P}(B \backslash A)=\mathbb{P}(B)-\mathbb{P}(A) 成立。特别是, P ( A c ) = 1 P ( A ) P A c = 1 P ( A ) P(A^(c))=1-P(A)\mathbb{P}\left(A^{\mathrm{c}}\right)=1-\mathbb{P}(A)


(ii) P ( A B ) = P ( A ) + P ( B ) P ( A B ) P ( A B ) = P ( A ) + P ( B ) P ( A B ) P(A uu B)=P(A)+P(B)-P(A nn B)\mathbb{P}(A \cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B) 。特别是, P ( A B ) P ( A ) + P ( B ) P ( A B ) P ( A ) + P ( B ) P(A uu B) <= P(A)+P(B)\mathbb{P}(A \cup B) \leq \mathbb{P}(A)+\mathbb{P}(B)


(iii)如果 A B A B A sub BA \subset B ,则 P ( A ) P ( B ) P ( A ) P ( B ) P(A) <= P(B)\mathbb{P}(A) \leq \mathbb{P}(B)

备注 1.1.13。我们在处理更一般的有限测度 μ μ mu\mu 时,可以推导出类似的语句。对于无限测度,我们需要更加小心。例如,虽然 μ ( A B ) μ ( A ) + μ ( B ) μ ( A B ) μ ( A ) + μ ( B ) mu(A uu B) <= mu(A)+mu(B)\mu(A \cup B) \leq \mu(A)+\mu(B) 总是成立,但只有在 μ ( A B ) < μ ( A B ) < mu(A nn B) < oo\mu(A \cap B)<\infty 的情况下,我们才能理解 μ ( A ) + μ ( B ) μ ( A B ) μ ( A ) + μ ( B ) μ ( A B ) mu(A)+mu(B)-mu(A nn B)\mu(A)+\mu(B)-\mu(A \cap B) ,在此情况下, μ ( A B ) = μ ( A ) + μ ( B ) μ ( A B ) μ ( A B ) = μ ( A ) + μ ( B ) μ ( A B ) mu(A uu B)=mu(A)+mu(B)-mu(A nn B)\mu(A \cup B)=\mu(A)+\mu(B)-\mu(A \cap B) 也确实成立。

证明。(i) A B A B A sub BA \subset B 蕴含 B = A ( B A ) B = A ( B A ) B=A⊎(B\\A)B=A \uplus(B \backslash A) ,因此通过 σ σ sigma\sigma -可加性, P ( B ) = P ( B A ) + P ( A ) P ( B ) = P ( B A ) + P ( A ) P(B)=P(B\\A)+P(A)\mathbb{P}(B)=\mathbb{P}(B \backslash A)+\mathbb{P}(A) ,或者等价地, P ( B A ) = P ( B ) P ( A ) P ( B A ) = P ( B ) P ( A ) P(B\\A)=P(B)-P(A)\mathbb{P}(B \backslash A)=\mathbb{P}(B)-\mathbb{P}(A) 。令 B = Ω B = Ω B=OmegaB=\Omega ,我们从中得到
P ( A c ) = P ( Ω A ) = P ( Ω ) P ( A ) = 1 P ( A ) P A c = P ( Ω A ) = P ( Ω ) P ( A ) = 1 P ( A ) P(A^(c))=P(Omega\\A)=P(Omega)-P(A)=1-P(A)\mathbb{P}\left(A^{\mathrm{c}}\right)=\mathbb{P}(\Omega \backslash A)=\mathbb{P}(\Omega)-\mathbb{P}(A)=1-\mathbb{P}(A)

(ii) 设 C = A B C = A B C=A nn BC=A \cap B 。我们可以写 A B = ( A C ) ( B C ) C A B = ( A C ) ( B C ) C A uu B=(A\\C)⊎(B\\C)⊎CA \cup B=(A \backslash C) \uplus(B \backslash C) \uplus C ,这给出(使用 C A , C B C A , C B C sub A,C sub BC \subset A, C \subset B σ σ sigma\sigma - 可加性)
P ( A B ) = P ( A C ) + P ( B C ) + P ( C ) = ( i ) P ( A ) P ( C ) + P ( B ) P ( C ) + P ( C ) = P ( A ) + P ( B ) P ( C ) = P ( A ) + P ( B ) P ( A B ) P ( A B ) = P ( A C ) + P ( B C ) + P ( C ) = ( i ) P ( A ) P ( C ) + P ( B ) P ( C ) + P ( C ) = P ( A ) + P ( B ) P ( C ) = P ( A ) + P ( B ) P ( A B ) {:[P(A uu B)=P(A\\C)+P(B\\C)+P(C)=^((i))P(A)-P(C)+P(B)-P(C)+P(C)],[=P(A)+P(B)-P(C)],[=P(A)+P(B)-P(A nn B)]:}\begin{aligned} \mathbb{P}(A \cup B)=\mathbb{P}(A \backslash C)+\mathbb{P}(B \backslash C)+\mathbb{P}(C) & \stackrel{(i)}{=} \mathbb{P}(A)-\mathbb{P}(C)+\mathbb{P}(B)-\mathbb{P}(C)+\mathbb{P}(C) \\ & =\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(C) \\ & =\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B) \end{aligned}

(iii)立即从(i)自 P ( B A ) 0 P ( B A ) 0 P(B\\A) >= 0\mathbb{P}(B \backslash A) \geq 0

引理 1.1.14(测度的连续性)。设 ( Ω , F , μ ) ( Ω , F , μ ) (Omega,F,mu)(\Omega, \mathcal{F}, \mu) 为一个测度空间。


如果 ( A n ) n N F A n n N F (A_(n))_(n inN)subF\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{F} 是一个递增序列,即对于所有的 n N n N n inNn \in \mathbb{N} 都有 A n A n + 1 A n A n + 1 A_(n)subA_(n+1)A_{n} \subset A_{n+1} ,那么
μ ( n N A n ) = lim n μ ( A n ) μ n N A n = lim n μ A n mu(uuu_(n inN)A_(n))=lim_(n rarr oo)mu(A_(n))\mu\left(\bigcup_{n \in \mathbb{N}} A_{n}\right)=\lim _{n \rightarrow \infty} \mu\left(A_{n}\right)

(ii) 如果 ( A n ) n N F A n n N F (A_(n))_(n inN)subF\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{F} 是一个递减序列,满足 A n A n + 1 A n A n + 1 A_(n)supA_(n+1)A_{n} \supset A_{n+1} 对于所有 n N n N n inNn \in \mathbb{N} ,而且 μ ( A 1 ) < μ A 1 < mu(A_(1)) < oo\mu\left(A_{1}\right)<\infty ,那么
μ ( n N A n ) = lim n μ ( A n ) μ n N A n = lim n μ A n mu(nnn_(n inN)A_(n))=lim_(n rarr oo)mu(A_(n))\mu\left(\bigcap_{n \in \mathbb{N}} A_{n}\right)=\lim _{n \rightarrow \infty} \mu\left(A_{n}\right)
 证明。见附录 A。

我们特别关注的将是关于 ( R , B ( R ) ) ( R , B ( R ) ) (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})) 的以下措施,这在某种意义上位于光谱的两端。Lebesgue 测度 λ λ lambda\lambda 是满足以下条件的唯一测度:
λ ( ( a , b ] ) = b a , < a b < λ ( ( a , b ] ) = b a , < a b < lambda((a,b])=b-a,quad-oo < a <= b < oo\lambda((a, b])=b-a, \quad-\infty<a \leq b<\infty

因此,为我们基于对世界的物理感知所认为的自然集中的任何集合分配一个体积。狄拉克测度在点 x R x R x inRx \in \mathbb{R} 的定义为
δ x ( A ) = { 1 , x A 0 , x A δ x ( A ) = 1 ,      x A 0 ,      x A delta_(x)(A)={[1",",x in A],[0",",x!in A]:}\delta_{x}(A)= \begin{cases}1, & x \in A \\ 0, & x \notin A\end{cases}

即,它是一个点质量,当且仅当意味着为可测集合 A A AA 分配单位体积。在此特别指出,我们有 δ x ( { x } ) = 1 = δ x ( R ) δ x ( { x } ) = 1 = δ x ( R ) delta_(x)({x})=1=delta_(x)(R)\delta_{x}(\{x\})=1=\delta_{x}(\mathbb{R}) ,因此 δ x δ x delta_(x)\delta_{x} 是我们的第一个概率测度的例子。与此相反,勒贝格测度成立。
λ ( { x } ) = λ ( n N ( x 1 / n , x + 1 / n ] ) = lim n λ ( ( x 1 / n , x + 1 / n ] ) = lim n 2 n = 0 λ ( { x } ) = λ n N ( x 1 / n , x + 1 / n ] = lim n λ ( ( x 1 / n , x + 1 / n ] ) = lim n 2 n = 0 lambda({x})=lambda(nnn_(n inN)(x-1//n,x+1//n])=lim_(n rarr oo)lambda((x-1//n,x+1//n])=lim_(n rarr oo)(2)/(n)=0\lambda(\{x\})=\lambda\left(\bigcap_{n \in \mathbb{N}}(x-1 / n, x+1 / n]\right)=\lim _{n \rightarrow \infty} \lambda((x-1 / n, x+1 / n])=\lim _{n \rightarrow \infty} \frac{2}{n}=0

对于第二个等式,我们使用了引理 1.1.14 中的度量连续性。这意味着任何单点集合 { x } { x } {x}\{x\} 是根据下一个定义的勒贝格测度的零集。

定义 1.1.15. 设 μ μ mu\mu 是某个可测空间 ( Ω , F ) ( Ω , F ) (Omega,F)(\Omega, \mathcal{F}) 上的测度。一个集合 N F N F N inFN \in \mathcal{F} ,使得 μ ( N ) = 0 μ ( N ) = 0 mu(N)=0\mu(N)=0 被称为 μ μ mu\mu -零集。如果某个性质对所有 ω Ω N ω Ω N omega in Omega\\N\omega \in \Omega \backslash N 成立,其中 N N NN 是一个 μ μ mu\mu -零集,我们说这个性质几乎在 μ μ mu\mu -处处成立( μ μ mu\mu -a.e.)。如果 μ μ mu\mu 是一个概率测度,我们则说几乎肯定 μ μ mu\mu -成立( ( μ ( μ (mu(\mu -a.s. ) ) )) )。

练习 1.1.16。显示以下内容:


如果 P 1 , P 2 P 1 , P 2 P_(1),P_(2)\mathbb{P}_{1}, \mathbb{P}_{2} 是概率测度,并且 λ 1 , λ 2 0 λ 1 , λ 2 0 lambda_(1),lambda_(2) >= 0\lambda_{1}, \lambda_{2} \geq 0 ,那么 λ 1 P 1 + λ 2 P 2 λ 1 P 1 + λ 2 P 2 lambda_(1)P_(1)+lambda_(2)P_(2)\lambda_{1} \mathbb{P}_{1}+\lambda_{2} \mathbb{P}_{2} 当且仅当 λ 1 + λ 2 = 1 λ 1 + λ 2 = 1 lambda_(1)+lambda_(2)=1\lambda_{1}+\lambda_{2}=1 是一个概率测度


对于任何 a , b R a , b R a,b inRa, b \in \mathbb{R} ,只要 a < b a < b a < ba<b ,则成立:
λ ( [ a , b ] ) = λ ( [ a , b ) ) = λ ( ( a , b ] ) = λ ( ( a , b ) ) λ ( [ a , b ] ) = λ ( [ a , b ) ) = λ ( ( a , b ] ) = λ ( ( a , b ) ) lambda([a,b])=lambda([a,b))=lambda((a,b])=lambda((a,b))\lambda([a, b])=\lambda([a, b))=\lambda((a, b])=\lambda((a, b))

(iii) Lebesgue 测度 λ λ lambda\lambda σ σ sigma\sigma -有限但不是有限的。


1.2. 独立性和条件概率


在本节中,我们固定一个概率空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P})


定义 1.2.1(独立性)。如果两个事件 A , B F A , B F A,B inFA, B \in \mathcal{F} 被定义为独立的,满足以下条件:
P ( A B ) = P ( A ) P ( B ) P ( A B ) = P ( A ) P ( B ) P(A nn B)=P(A)P(B)\mathbb{P}(A \cap B)=\mathbb{P}(A) \mathbb{P}(B)

例 1.2.2. 设例 1.1.1 中的概率空间已给定。考虑事件 A = { H T , H H } A = { H T , H H } A={HT,HH}≜A=\{H T, H H\} \triangleq “第一次掷骰子出现正面”和 B = { H T , T T } B = { H T , T T } B={HT,TT}≜B=\{H T, T T\} \triangleq “第二次掷骰子出现反面”。然后
P ( A B ) = { H T } = 1 / 4 = 1 2 1 2 = P ( { H T , H H } ) P ( { H T , T T } ) = P ( A ) P ( B ) P ( A B ) = { H T } = 1 / 4 = 1 2 1 2 = P ( { H T , H H } ) P ( { H T , T T } ) = P ( A ) P ( B ) P(A nn B)={HT}=1//4=(1)/(2)*(1)/(2)=P({HT,HH})P({HT,TT})=P(A)P(B)\mathbb{P}(A \cap B)=\{H T\}=1 / 4=\frac{1}{2} \cdot \frac{1}{2}=\mathbb{P}(\{H T, H H\}) \mathbb{P}(\{H T, T T\})=\mathbb{P}(A) \mathbb{P}(B)

所以 A A AA B B BB 是独立的。


定义 1.2.3(条件概率)。设 A F A F A inFA \in \mathcal{F} ,使得 P ( A ) > 0 P ( A ) > 0 P(A) > 0\mathbb{P}(A)>0 。条件概率 P ( A ) P ( A ) P(*∣A)\mathbb{P}(\cdot \mid A) ( Ω , F ) ( Ω , F ) (Omega,F)(\Omega, \mathcal{F}) 上定义为
P ( B A ) = P ( A B ) P ( A ) , B F P ( B A ) = P ( A B ) P ( A ) , B F P(B∣A)=(P(A nn B))/(P(A)),quad AA B inF\mathbb{P}(B \mid A)=\frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)}, \quad \forall B \in \mathcal{F}

我们称 P ( B A ) P ( B A ) P(B∣A)\mathbb{P}(B \mid A) 为在 A A AA 给定的情况下 B B BB 的条件概率。


定义意味着,如果 P ( A ) > 0 P ( A ) > 0 P(A) > 0\mathbb{P}(A)>0 ,事件 B F B F B inFB \in \mathcal{F} 独立于 A A AA ,当且仅当 P ( B A ) = P ( B ) P ( B A ) = P ( B ) P(B∣A)=P(B)\mathbb{P}(B \mid A)=\mathbb{P}(B)


命题 1.2.4。条件概率 P ( A ) P ( A ) P(*∣A)\mathbb{P}(\cdot \mid A) ( Ω , F ) ( Ω , F ) (Omega,F)(\Omega, \mathcal{F}) 上的概率测度。


证明。我们需要证明 (i) P ( A ) = 0 P ( A ) = 0 P(O/∣A)=0\mathbb{P}(\varnothing \mid A)=0 ,(ii) P ( Ω A ) = 1 P ( Ω A ) = 1 P(Omega∣A)=1\mathbb{P}(\Omega \mid A)=1 以及 (iii) 对于在 F F F\mathcal{F} 中成对不相交的事件 ( A n ) n N A n n N (A_(n))_(n inN)\left(A_{n}\right)_{n \in \mathbb{N}} ,我们有 P ( n A n A ) = n P ( A n A ) P n A n A = n P A n A P(uuu_(n)A_(n)∣A)=sum_(n)P(A_(n)∣A)\mathbb{P}\left(\bigcup_{n} A_{n} \mid A\right)=\sum_{n} \mathbb{P}\left(A_{n} \mid A\right) 。 (i) 是显然的,因为 A = A = A nn O/=O/A \cap \varnothing=\varnothing 。由于 Ω A = A Ω A = A Omega nn A=A\Omega \cap A=A ,因此还得到
P ( Ω A ) = P ( Ω A ) P ( A ) = P ( A ) P ( A ) = 1 P ( Ω A ) = P ( Ω A ) P ( A ) = P ( A ) P ( A ) = 1 P(Omega∣A)=(P(Omega nn A))/(P(A))=(P(A))/(P(A))=1\mathbb{P}(\Omega \mid A)=\frac{\mathbb{P}(\Omega \cap A)}{\mathbb{P}(A)}=\frac{\mathbb{P}(A)}{\mathbb{P}(A)}=1
which establishes (ii). For (iii), note that we have A n A n = n ( A n A ) A n A n = n A n A A nnuuu_(n)A_(n)=uuu_(n)(A_(n)nn A)A \cap \bigcup_{n} A_{n}=\bigcup_{n}\left(A_{n} \cap A\right) and since ( A n ) n A n n (A_(n))_(n)\left(A_{n}\right)_{n} are pairwise disjoint, the same remains true for ( A n A ) n A n A n (A_(n)nn A)_(n)\left(A_{n} \cap A\right)_{n}. Thus, σ σ sigma\sigma-additivity of P P P\mathbb{P} yields
建立(ii)。对于(iii),注意到我们有 A n A n = n ( A n A ) A n A n = n A n A A nnuuu_(n)A_(n)=uuu_(n)(A_(n)nn A)A \cap \bigcup_{n} A_{n}=\bigcup_{n}\left(A_{n} \cap A\right) ,并且由于 ( A n ) n A n n (A_(n))_(n)\left(A_{n}\right)_{n} 是成对不相交的,因此 ( A n A ) n A n A n (A_(n)nn A)_(n)\left(A_{n} \cap A\right)_{n} 的情况仍然成立。因此, P P P\mathbb{P} σ σ sigma\sigma -可加性得出
P ( n N A n A ) = P ( n N ( A n A ) ) P ( A ) = n N P ( A n A ) P ( A ) = n N P ( A n A ) P n N A n A = P n N A n A P ( A ) = n N P A n A P ( A ) = n N P A n A P(uuu_(n inN)A_(n)∣A)=(P(uuu_(n inN)(A_(n)nn A)))/(P(A))=sum_(n inN)(P(A_(n)nn A))/(P(A))=sum_(n inN)P(A_(n)∣A)\mathbb{P}\left(\bigcup_{n \in \mathbb{N}} A_{n} \mid A\right)=\frac{\mathbb{P}\left(\bigcup_{n \in \mathbb{N}}\left(A_{n} \cap A\right)\right)}{\mathbb{P}(A)}=\sum_{n \in \mathbb{N}} \frac{\mathbb{P}\left(A_{n} \cap A\right)}{\mathbb{P}(A)}=\sum_{n \in \mathbb{N}} \mathbb{P}\left(A_{n} \mid A\right)

定理 1.2.5(贝叶斯公式)。设 A , B F A , B F A,B inFA, B \in \mathcal{F} 使得 P ( A ) , P ( B ) > 0 P ( A ) , P ( B ) > 0 P(A),P(B) > 0\mathbb{P}(A), \mathbb{P}(B)>0 。那么,对于任意 B F B F B inFB \in \mathcal{F}
P ( B A ) posterior = P ( A B ) P ( B ) prior P ( A ) = P ( A B ) P ( B ) P ( A B ) P ( B ) + P ( A B c ) P ( B c ) P ( B A ) posterior  = P ( A B ) P ( B ) prior  P ( A ) = P ( A B ) P ( B ) P ( A B ) P ( B ) + P A B c P B c obrace(P(B∣A))^("posterior ")=(P(A∣B) obrace(P(B))^("prior "))/(P(A))=(P(A∣B)P(B))/(P(A∣B)P(B)+P(A∣B^(c))P(B^(c)))\overbrace{\mathbb{P}(B \mid A)}^{\text {posterior }}=\frac{\mathbb{P}(A \mid B) \overbrace{\mathbb{P}(B)}^{\text {prior }}}{\mathbb{P}(A)}=\frac{\mathbb{P}(A \mid B) \mathbb{P}(B)}{\mathbb{P}(A \mid B) \mathbb{P}(B)+\mathbb{P}\left(A \mid B^{\mathrm{c}}\right) \mathbb{P}\left(B^{c}\right)}

证明。我们有 P ( A B ) = P ( A B ) / P ( B ) P ( A B ) = P ( A B ) / P ( B ) P(A∣B)=P(A nn B)//P(B)\mathbb{P}(A \mid B)=\mathbb{P}(A \cap B) / \mathbb{P}(B) ,或者等价地, P ( A B ) = P ( A B ) P ( B ) P ( A B ) = P ( A B ) P ( B ) P(A nn B)=P(A∣B)P(B)\mathbb{P}(A \cap B)=\mathbb{P}(A \mid B) \mathbb{P}(B) 。将这个表达式代入 P ( A B ) = P ( A B ) / P ( B ) P ( A B ) = P ( A B ) / P ( B ) P(A∣B)=P(A nn B)//P(B)\mathbb{P}(A \mid B)=\mathbb{P}(A \cap B) / \mathbb{P}(B) 中的 P ( A B ) P ( A B ) P(A nn B)\mathbb{P}(A \cap B) 得到第一个所述的等式。第二个等式是从第一个推导出来的,经过分解 A = ( A B ) ( A B c ) A = ( A B ) A B c A=(A nn B)⊎(A nnB^(c))A=(A \cap B) \uplus\left(A \cap B^{\mathrm{c}}\right) ,得出
P ( A ) = P ( A B ) + P ( A B c ) = P ( A B ) P ( B ) + P ( A B c ) P ( B c ) P ( A ) = P ( A B ) + P A B c = P ( A B ) P ( B ) + P A B c P B c {:[P(A)=P(A nn B)+P(A nnB^(c))],[=P(A∣B)P(B)+P(A∣B^(c))P(B^(c))]:}\begin{aligned} \mathbb{P}(A) & =\mathbb{P}(A \cap B)+\mathbb{P}\left(A \cap B^{\mathrm{c}}\right) \\ & =\mathbb{P}(A \mid B) \mathbb{P}(B)+\mathbb{P}\left(A \mid B^{\mathrm{c}}\right) \mathbb{P}\left(B^{\mathrm{c}}\right) \end{aligned}

全概率法则

 (划分公式)

 1. 概率基础


例 1.2.6. 在一场足球比赛后进行禁药检测。今年联赛稍显歪曲,因此 0.5 % 0.5 % 0.5%0.5 \% 名球员使用了禁药。此外,该检测以 95 % 95 % 95%95 \% 的准确率检测到使用了禁药的球员,但在 1 % 1 % 1%1 \% 的情况下对未使用禁药的球员测试也呈现阳性(假阳性)。让我们计算一下,如果检测结果为阳性,球员实际上使用了禁药的概率:如果我们设定 A = A = A=A= 为“检测呈阳性”, B = B = B=B= 为“球员使用了禁药”,那么 P ( B ) = 0.005 , P ( A B ) = 0.95 P ( B ) = 0.005 , P ( A B ) = 0.95 P(B)=0.005,P(A∣B)=0.95\mathbb{P}(B)=0.005, \mathbb{P}(A \mid B)=0.95 P ( A B c ) = 0.01 P A B c = 0.01 P(A∣B^(c))=0.01\mathbb{P}\left(A \mid B^{\mathrm{c}}\right)=0.01 。因此,根据贝叶斯公式
P ( B A ) = P ( A B ) P ( B ) P ( A B ) P ( B ) + P ( A B c ) P ( B c ) = 0.95 0.005 0.95 0.005 + 0.01 ( 1 0.005 ) = 0.95 2.94 0.32 . P ( B A ) = P ( A B ) P ( B ) P ( A B ) P ( B ) + P A B c P B c = 0.95 0.005 0.95 0.005 + 0.01 ( 1 0.005 ) = 0.95 2.94 0.32 . P(ubrace(B∣Aubrace))=(P(A∣B)P(B))/(P(A∣B)P(B)+P(A∣B^(c))P(B^(c)))=(0.95*0.005)/(0.95*0.005+0.01*(1-0.005))=(0.95)/(2.94)~~0.32.\mathbb{P}(\underbrace{B \mid A})=\frac{\mathbb{P}(A \mid B) \mathbb{P}(B)}{\mathbb{P}(A \mid B) \mathbb{P}(B)+\mathbb{P}\left(A \mid B^{\mathrm{c}}\right) \mathbb{P}\left(B^{\mathrm{c}}\right)}=\frac{0.95 \cdot 0.005}{0.95 \cdot 0.005+0.01 \cdot(1-0.005)}=\frac{0.95}{2.94} \approx 0.32 .

“玩家服用兴奋剂,因为检测结果是阳性。”


这就是为什么在体育比赛中总是会提取 B 样本。

 随机变量


2.1. 随机变量及其分布

 2.1.1. 可测量性


定义 2.1.1. 让 ( E , A ) ( E , A ) (E,A)(E, \mathcal{A}) 是一个可测空间。如果函数 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} 被称为可测的,则对于任何 A B ( R ) A B ( R ) A inB(R)A \in \mathcal{B}(\mathbb{R}) ,都有 f 1 ( A ) A f 1 ( A ) A f^(-1)(A)inAf^{-1}(A) \in \mathcal{A}

这个定义乍一看似乎相当繁琐,因为 σ σ sigma\sigma -代数如 B ( R ) B ( R ) B(R)\mathcal{B}(\mathrm{R}) 在大多数情况下太复杂,无法手动检查可测性条件。幸运的是,我们可以通过仅检查生成的波莱尔 σ σ sigma\sigma -代数的前像条件,将这个常常不可能完成的任务简化为检查开集或甚至更简单的区间族,如引理 1.1.7 中所建立的那样。正式表述如下。

命题 2.1.2. 设 ( E , A ) ( E , A ) (E,A)(E, \mathcal{A}) 为一个可测空间, E E E\mathcal{E} B ( R ) B ( R ) B(R)\mathcal{B}(\mathrm{R}) 的生成器,即 B ( R ) = σ ( E ) B ( R ) = σ ( E ) B(R)=sigma(E)\mathcal{B}(\mathrm{R})=\sigma(\mathcal{E}) 。则当且仅当 f 1 ( E ) A f 1 ( E ) A f^(-1)(E)subAf^{-1}(\mathcal{E}) \subset \mathcal{A} 时,函数 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} 是可测的。


证明。我们在讲座中跳过了证明。然而,这个证明很有启发性,因为它包含了一个在测度理论中常用的强大思想。我强烈推荐在附录 A 中查看它。

例 2.1.3. (i) 设 ( E , A ) ( E , A ) (E,A)(E, \mathcal{A}) 为一个可测空间,并将集合 A A A A A inAA \in \mathcal{A} 的指示函数定义为
1 A : E R , x { 1 , x A 0 , x A 1 A : E R , x 1 ,      x A 0 ,      x A 1_(A):E rarrR,quad x|->{[1",",x in A],[0",",x!in A]:}\mathbf{1}_{A}: E \rightarrow \mathbb{R}, \quad x \mapsto \begin{cases}1, & x \in A \\ 0, & x \notin A\end{cases}

对于任何集合 B B ( R ) B B ( R ) B inB(R)B \in \mathcal{B}(\mathbb{R}) ,我们有
1 A 1 ( B ) = { x E : 1 A ( x ) B } = { A , 1 B , 0 B A c , 0 B , 1 B E , 0 , 1 B , 0 , 1 B 1 A 1 ( B ) = x E : 1 A ( x ) B = A ,      1 B , 0 B A c ,      0 B , 1 B E ,      0 , 1 B ,      0 , 1 B 1_(A)^(-1)(B)={x in E:1_(A)(x)in B}={[A",",1in B","0!in B],[A^(c)",",0in B","1!in B],[E",",0","1in B],[O/",",0","1!in B]:}\mathbf{1}_{A}^{-1}(B)=\left\{x \in E: \mathbf{1}_{A}(x) \in B\right\}= \begin{cases}A, & 1 \in B, 0 \notin B \\ A^{\mathrm{c}}, & 0 \in B, 1 \notin B \\ E, & 0,1 \in B \\ \varnothing, & 0,1 \notin B\end{cases}

这表明 1 A 1 ( B ) A 1 A 1 A 1 ( B ) A 1 A 1_(A)^(-1)(B)inALongrightarrow1_(A)\mathbf{1}_{A}^{-1}(B) \in \mathcal{A} \Longrightarrow \mathbf{1}_{A} 是可测量的。


(ii) 任何连续函数 f : R R f : R R f:RrarrRf: \mathbb{R} \rightarrow \mathbb{R} 都是可测的:设 O R O R O subRO \subset \mathbb{R} 为开集。由于连续性, f 1 ( O ) f 1 ( O ) f^(-1)(O)f^{-1}(O) 也是开集,并且因为 B ( R ) B ( R ) B(R)\mathcal{B}(\mathbb{R}) 是由开集生成的,这表明 f 1 ( O ) B ( R ) f 1 ( O ) B ( R ) f^(-1)(O)inB(R)f^{-1}(O) \in \mathcal{B}(\mathbb{R}) 。根据命题 2.1.2,这足以证明可测性。


可测函数在通常的分析操作下表现良好。我们在此仅记录几个重要的性质而不提供证明(如果您想尝试证明其中的一些,命题 2.1.2 非常有帮助)。

引理 2.1.4. 设 ( E , A ) ( E , A ) (E,A)(E, \mathcal{A}) 为一个可测空间。


如果 f , g f , g f,gf, g ( E , A ) ( E , A ) (E,A)(E, \mathcal{A}) 上的可测函数,则 f + g f + g f+gf+g f g f g f*gf \cdot g 也是可测的。


(ii)如果 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} g : R R g : R R g:RrarrRg: \mathbb{R} \rightarrow \mathbb{R} 是可测的,那么它们的复合 g f g f g@fg \circ f 也是可测的。


(iii) 设 ( f n ) n N f n n N (f_(n))_(n inN)\left(f_{n}\right)_{n \in \mathbb{N}} 是从 E E EE R R R\mathbb{R} 的一列可测函数,存在一个函数 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} ,使得对于任意的 x E x E x in Ex \in E ,都成立逐点收敛 lim n f n ( x ) = f ( x ) lim n f n ( x ) = f ( x ) lim_(n rarr oo)f_(n)(x)=f(x)\lim _{n \rightarrow \infty} f_{n}(x)=f(x) 。那么, f f ff 是可测的。


2.1.2. 随机变量及其分布的定义


定义 2.1.5. 概率空间上的随机变量 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 是可测映射 X : Ω X : Ω X:Omega rarrX: \Omega \rightarrow R R R\mathbb{R} ,即,对任何 A B ( R ) A B ( R ) A inB(R)A \in \mathcal{B}(\mathbb{R}) 都有 X 1 ( A ) F X 1 ( A ) F X^(-1)(A)inFX^{-1}(A) \in \mathcal{F}

备注 2.1.6。在下面的内容中,我们将使用符号 { X A } := X 1 ( A ) { X A } := X 1 ( A ) {X in A}:=X^(-1)(A)\{X \in A\}:=X^{-1}(A) ,这是根据前像 X 1 ( A ) = { ω Ω : X ( ω ) A } X 1 ( A ) = { ω Ω : X ( ω ) A } X^(-1)(A)={omega in Omega:X(omega)in A}X^{-1}(A)=\{\omega \in \Omega: X(\omega) \in A\} 的定义而来的。因此,随机变量是从样本空间 Ω Ω Omega\Omega 到实数的映射,使得对于在 R R R\mathbb{R} 中的任何可测集合 A A AA ,其前像 { X A } { X A } {X in A}\{X \in A\} 是概率空间上的一个适当事件。

由于随机变量在概率空间的背景下只是可测映射,我们可以以概率的方式重新表述引理 2.1.4。

引理 2.1.7. 设 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 是一个概率空间。


如果 X , Y X , Y X,YX, Y 是随机变量,则 X + Y X + Y X+YX+Y X Y X Y X*YX \cdot Y 也是随机变量。


(ii) 如果 X X XX 是一个随机变量,而 g : R R g : R R g:RrarrRg: \mathbb{R} \rightarrow \mathbb{R} 是可测的,则 Y = g ( X ) Y = g ( X ) Y=g(X)Y=g(X) 也是一个随机变量。


(iii) 设 ( X n ) n N X n n N (X_(n))_(n inN)\left(X_{n}\right)_{n \in \mathbb{N}} 为一系列随机变量,存在 X : Ω R X : Ω R X:Omega rarrRX: \Omega \rightarrow \mathbb{R} 使得对任意 ω Ω ω Ω omega in Omega\omega \in \Omega ,点态收敛 lim n X n ( ω ) = X ( ω ) lim n X n ( ω ) = X ( ω ) lim_(n rarr oo)X_(n)(omega)=X(omega)\lim _{n \rightarrow \infty} X_{n}(\omega)=X(\omega) 成立。则 X X XX 也是随机变量。

定义 2.1.8. 在概率空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 上,随机变量 X X XX 的分布 P X : F [ 0 , 1 ] P X : F [ 0 , 1 ] P_(X):Frarr[0,1]\mathbb{P}_{X}: \mathcal{F} \rightarrow[0,1] 被定义为
P X ( B ) = P ( X 1 ( B ) ) , B F P X ( B ) = P X 1 ( B ) , B F P_(X)(B)=P(X^(-1)(B)),quad B inF\mathbb{P}_{X}(B)=\mathbb{P}\left(X^{-1}(B)\right), \quad B \in \mathcal{F}

备注 2.1.9. 类似于之前,我们可以交替地写作
P X ( B ) = P ( X 1 ( B ) ) = P ( { X B } ) = P ( X B ) P X ( B ) = P X 1 ( B ) = P ( { X B } ) = P ( X B ) P_(X)(B)=P(X^(-1)(B))=P({X in B})=P(X in B)\mathbb{P}_{X}(B)=\mathbb{P}\left(X^{-1}(B)\right)=\mathbb{P}(\{X \in B\})=\mathbb{P}(X \in B)

对于区间 [ a , b ] [ a , b ] [a,b][a, b] ,我们也写作 P ( X [ a , b ] ) = P ( a X b ) P ( X [ a , b ] ) = P ( a X b ) P(X in[a,b])=P(a <= X <= b)\mathbb{P}(X \in[a, b])=\mathbb{P}(a \leq X \leq b) ,并对开区间和半开区间使用类似的约定。我们还使用简写 P ( X ( , x ] ) = P ( X x ) P ( X ( , x ] ) = P ( X x ) P(X in(-oo,x])=P(X <= x)\mathbb{P}(X \in(-\infty, x])=\mathbb{P}(X \leq x)

定理 2.1.10. 设 X X XX ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 上的随机变量。它的分布 P X P X P_(X)\mathbb{P}_{X} ( R , B ( R ) ) ( R , B ( R ) ) (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})) 上的概率测度。
 证明。(i) P X ( ) = P ( X 1 ( ) ) = P ( ) = 0 P X ( ) = P X 1 ( ) = P ( ) = 0 P_(X)(O/)=P(X^(-1)(O/))=P(O/)=0\mathbb{P}_{X}(\varnothing)=\mathbb{P}\left(X^{-1}(\varnothing)\right)=\mathbb{P}(\varnothing)=0
(ii) P X ( R ) = P ( X 1 ( R ) ) = P ( Ω ) = 1 P X ( R ) = P X 1 ( R ) = P ( Ω ) = 1 P_(X)(R)=P(X^(-1)(R))=P(Omega)=1\mathbb{P}_{X}(\mathbb{R})=\mathbb{P}\left(X^{-1}(\mathbb{R})\right)=\mathbb{P}(\Omega)=1.
(iii) It is easily checked that for a pairwise disjoint sequence ( A n ) n N B ( R ) A n n N B ( R ) (A_(n))_(n inN)subB(R)\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{B}(\mathbb{R}), the sequence ( X 1 ( A n ) ) n N X 1 A n n N (X^(-1)(A_(n)))_(n inN)\left(X^{-1}\left(A_{n}\right)\right)_{n \in \mathbb{N}} is also disjoint and by measurability of X X XX it is a sequence in F F F\mathcal{F}. Consequently,
(iii) 很容易检查,对于一对成对不相交的序列 ( A n ) n N B ( R ) A n n N B ( R ) (A_(n))_(n inN)subB(R)\left(A_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{B}(\mathbb{R}) ,序列 ( X 1 ( A n ) ) n N X 1 A n n N (X^(-1)(A_(n)))_(n inN)\left(X^{-1}\left(A_{n}\right)\right)_{n \in \mathbb{N}} 也是不相交的,并且由于 X X XX 的可测性,它是序列 F F F\mathcal{F} 中的一个序列。因此,
P X ( n N A n ) = P ( X 1 ( n N A n ) ) = P ( n N X 1 ( A n ) ) = n N P ( X 1 ( A n ) ) = n N P X ( A n ) P X n N A n = P X 1 n N A n = P n N X 1 A n = n N P X 1 A n = n N P X A n {:[P_(X)(uuu_(n inN)A_(n))=P(X^(-1)(uuu_(n inN)A_(n)))],[=P(uuu_(n inN)X^(-1)(A_(n)))],[=sum_(n inN)P(X^(-1)(A_(n)))],[=sum_(n inN)P_(X)(A_(n))]:}\begin{aligned} \mathbb{P}_{X}\left(\bigcup_{n \in \mathbb{N}} A_{n}\right) & =\mathbb{P}\left(X^{-1}\left(\bigcup_{n \in \mathbb{N}} A_{n}\right)\right) \\ & =\mathbb{P}\left(\bigcup_{n \in \mathbb{N}} X^{-1}\left(A_{n}\right)\right) \\ & =\sum_{n \in \mathbb{N}} \mathbb{P}\left(X^{-1}\left(A_{n}\right)\right) \\ & =\sum_{n \in \mathbb{N}} \mathbb{P}_{X}\left(A_{n}\right) \end{aligned}
where we used σ σ sigma\sigma-additivity of P P P\mathbb{P} for the third line.
我们在第三行中使用了 σ σ sigma\sigma P P P\mathbb{P} 的加法性。
Definition 2.1.11. A random variable X X XX is called discrete if there exists N N { } N N { } N inNuu{oo}N \in \mathbb{N} \cup\{\infty\}, weights p 1 , , p N p 1 , , p N p_(1),dots,p_(N) >=p_{1}, \ldots, p_{N} \geq 0 and points x 1 , , x N R x 1 , , x N R x_(1),dots,x_(N)inRx_{1}, \ldots, x_{N} \in \mathbb{R} (both interpreted as sequences if N = N = N=ooN=\infty ) such that k = 1 N p k = 1 k = 1 N p k = 1 sum_(k=1)^(N)p_(k)=1\sum_{k=1}^{N} p_{k}=1 and
定义 2.1.11. 如果存在 N N { } N N { } N inNuu{oo}N \in \mathbb{N} \cup\{\infty\} 、权重 p 1 , , p N p 1 , , p N p_(1),dots,p_(N) >=p_{1}, \ldots, p_{N} \geq 0 和点 x 1 , , x N R x 1 , , x N R x_(1),dots,x_(N)inRx_{1}, \ldots, x_{N} \in \mathbb{R} (在 N = N = N=ooN=\infty 被解释为序列),则随机变量 X X XX 被称为离散的,使得 k = 1 N p k = 1 k = 1 N p k = 1 sum_(k=1)^(N)p_(k)=1\sum_{k=1}^{N} p_{k}=1
P X = k = 1 N p k δ x k P X = k = 1 N p k δ x k P_(X)=sum_(k=1)^(N)p_(k)delta_(x_(k))\mathbb{P}_{X}=\sum_{k=1}^{N} p_{k} \delta_{x_{k}}
We call 我们称呼
f X ( x ) = P X ( { x } ) = P ( X = x ) = k = 1 N p k 1 { x k } ( x ) , x R f X ( x ) = P X ( { x } ) = P ( X = x ) = k = 1 N p k 1 x k ( x ) , x R f_(X)(x)=P_(X)({x})=P(X=x)=sum_(k=1)^(N)p_(k)1_({x_(k)})(x),quad x inRf_{X}(x)=\mathbb{P}_{X}(\{x\})=\mathbb{P}(X=x)=\sum_{k=1}^{N} p_{k} \mathbf{1}_{\left\{x_{k}\right\}}(x), \quad x \in \mathbb{R}
either the discrete density function or probability mass function (pmf).
离散密度函数或概率质量函数 (pmf)。

Example 2.1.12. Consider a simple coin toss with probability of heads equal to p [ 0 , 1 ] p [ 0 , 1 ] p in[0,1]p \in[0,1]. We may model Ω = { H , T } , F = 2 Ω = { { H } , { T } , { H , T } , } Ω = { H , T } , F = 2 Ω = { { H } , { T } , { H , T } , } Omega={H,T},F=2^(Omega)={{H},{T},{H,T},O/}\Omega=\{H, T\}, \mathcal{F}=2^{\Omega}=\{\{H\},\{T\},\{H, T\}, \varnothing\} and P ( { H } ) = p P ( { H } ) = p P({H})=p\mathbb{P}(\{H\})=p and then set X ( H ) = 1 , X ( T ) = 0 X ( H ) = 1 , X ( T ) = 0 X(H)=1,X(T)=0X(H)=1, X(T)=0. The corresponding distribution P X P X P_(X)\mathbb{P}_{X} can then be written as
示例 2.1.12. 考虑一次简单的抛硬币,正面朝上的概率为 p [ 0 , 1 ] p [ 0 , 1 ] p in[0,1]p \in[0,1] 。我们可以建模 Ω = { H , T } , F = 2 Ω = { { H } , { T } , { H , T } , } Ω = { H , T } , F = 2 Ω = { { H } , { T } , { H , T } , } Omega={H,T},F=2^(Omega)={{H},{T},{H,T},O/}\Omega=\{H, T\}, \mathcal{F}=2^{\Omega}=\{\{H\},\{T\},\{H, T\}, \varnothing\} P ( { H } ) = p P ( { H } ) = p P({H})=p\mathbb{P}(\{H\})=p ,然后设置 X ( H ) = 1 , X ( T ) = 0 X ( H ) = 1 , X ( T ) = 0 X(H)=1,X(T)=0X(H)=1, X(T)=0 。相应的分布 P X P X P_(X)\mathbb{P}_{X} 可以写成
P X = p δ 0 + ( 1 p ) δ 1 P X = p δ 0 + ( 1 p ) δ 1 P_(X)=pdelta_(0)+(1-p)delta_(1)\mathbb{P}_{X}=p \delta_{0}+(1-p) \delta_{1}
and we call P X P X P_(X)\mathbb{P}_{X} a Bernoulli distribution with success rate p p pp. Alternatively, we can start with P X P X P_(X)\mathbb{P}_{X} as above and use it as a distributional model for the coin toss experiment with random outcome X X XX directly, without specifying the underlying probability space ( Ω , F , P ) . 1 ( Ω , F , P ) . 1 (Omega,F,P).^(1)(\Omega, F, \mathbb{P}) .{ }^{1} The latter modelling approach is particularly useful in situations, where a random phenomenon is far too complex to allow an explicit construction of the underlying probability space (think of a stock price for example) and is therefore the appropriate one for our statistical purposes.
我们称 P X P X P_(X)\mathbb{P}_{X} 为成功率为 p p pp 的伯努利分布。或者,我们可以像上面一样从 P X P X P_(X)\mathbb{P}_{X} 开始,并将其直接用作硬币投掷实验的分布模型,随机结果为 X X XX ,而不需要指定基础概率空间 ( Ω , F , P ) . 1 ( Ω , F , P ) . 1 (Omega,F,P).^(1)(\Omega, F, \mathbb{P}) .{ }^{1} 。后一种建模方法在随机现象过于复杂以至于无法明确构建基础概率空间的情况下特别有用(例如股票价格),因此在我们的统计目的中是合适的。

定义 2.1.13。在概率空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, F, \mathbb{P}) 上随机变量 X X XX 的分布函数 F X : R [ 0 , 1 ] F X : R [ 0 , 1 ] F_(X):Rrarr[0,1]F_{X}: \mathbb{R} \rightarrow[0,1] 定义为
F X ( x ) = P X ( ( , x ] ) = P ( X x ) , x R F X ( x ) = P X ( ( , x ] ) = P ( X x ) , x R F_(X)(x)=P_(X)((-oo,x])=P(X <= x),quad x inRF_{X}(x)=\mathbb{P}_{X}((-\infty, x])=\mathbb{P}(X \leq x), \quad x \in \mathbb{R}

注释 2.1.14. 分布函数通常也被称为累积分布函数,简称为 c d f c d f cdfc d f ;从现在开始我们将使用这个缩写。


练习 2.1.15. (i)为例 2.1.12 中的 p = 1 / 4 p = 1 / 4 p=1//4p=1 / 4 画出累积分布函数 (cdf)。


(ii) 证明对所有 a < b a < b a < ba<b 都有 P ( X ( a , b ] ) = F ( b ) F ( a ) P ( X ( a , b ] ) = F ( b ) F ( a ) P(X in(a,b])=F(b)-F(a)\mathbb{P}(X \in(a, b])=F(b)-F(a)

分布函数扮演着特殊的角色,因为它们相比于分布(函数与测度)更简单,但足以完全表征分布。

定理 2.1.16. 设 P X P X P_(X)\mathbb{P}_{X} P Y P Y P_(Y)\mathbb{P}_{Y} 为两个分布。则 P X = P Y P X = P Y P_(X)=P_(Y)\mathbb{P}_{X}=\mathbb{P}_{Y} (即, P X ( B ) = P Y ( B ) P X ( B ) = P Y ( B ) P_(X)(B)=P_(Y)(B)\mathbb{P}_{X}(B)=\mathbb{P}_{Y}(B) 对所有 B B ( R ) B B ( R ) B inB(R)B \in \mathcal{B}(\mathbb{R}) )当且仅当 F X = F Y F X = F Y F_(X)=F_(Y)F_{X}=F_{Y} (即, F X ( x ) = F Y ( x ) F X ( x ) = F Y ( x ) F_(X)(x)=F_(Y)(x)F_{X}(x)=F_{Y}(x) 对所有 x R x R x inRx \in \mathbb{R} )。

证明(草图)。一般来说,可以证明以下是正确的:如果 P , Q P , Q P,Q\mathrm{P}, \mathrm{Q} 是两个具有底层 σ σ sigma\sigma -代数 F F F\mathcal{F} 的概率测度,该代数由 n n nn -稳定的集合家族 E E E\mathcal{E} 生成,即,如果 F = σ ( E ) F = σ ( E ) F=sigma(E)\mathcal{F}=\sigma(\mathcal{E}) A B E A B E A nn B inEA \cap B \in \mathcal{E} 成立,当 A , B E A , B E A,B inEA, B \in \mathcal{E} 时,则对于所有 B E B E B inEB \in \mathcal{E} P = Q P = Q P=Q\mathbb{P}=\mathbb{Q} 当且仅当 P ( B ) = Q ( B ) P ( B ) = Q ( B ) P(B)=Q(B)\mathrm{P}(B)=\mathbb{Q}(B) 成立。在这里,我们有 B ( R ) = σ ( E ) B ( R ) = σ ( E ) B(R)=sigma(E)\mathcal{B}(\mathbb{R})=\sigma(\mathcal{E}) 对于 E = { ( , x ] : x R } E = { ( , x ] : x R } E={(oo,x]:x inR}\mathcal{E}=\{(\infty, x]: x \in \mathbb{R}\} ,参见引理 1.1.7,并且由于 ( , x ] ( , y ] = ( , x y ] ( , x ] ( , y ] = ( , x y ] (-oo,x]nn(-oo,y]=(-oo,x^^y](-\infty, x] \cap(-\infty, y]=(-\infty, x \wedge y] E E E\mathcal{E} n n nn -稳定的。因此, P X = P Y P X = P Y P_(X)=P_(Y)\mathbb{P}_{X}=\mathbb{P}_{Y} 当且仅当
x R : P X ( ( , x ] ) = F X ( x ) = P Y ( ( , x ] ) = F Y ( x ) x R : P X ( ( , x ] ) = F X ( x ) = P Y ( ( , x ] ) = F Y ( x ) AA x inR:quadubrace(P_(X)((-oo,x])ubrace)_(=F_(X)(x))=ubrace(P_(Y)((-oo,x])ubrace)_(=F_(Y)(x))\forall x \in \mathbb{R}: \quad \underbrace{\mathbb{P}_{X}((-\infty, x])}_{=F_{X}(x)}=\underbrace{\mathbb{P}_{Y}((-\infty, x])}_{=F_{Y}(x)}

命题 2.1.17 (累计分布函数的性质)。一个累计分布函数 F F X F X F_(X)F_{X} 具有以下性质:

x F X ( x ) x F X ( x ) x|->F_(X)(x)x \mapsto F_{X}(x) 是非递减的;


(ii) lim x F X ( x ) = 0 lim x F X ( x ) = 0 lim_(x rarr-oo)F_(X)(x)=0\lim _{x \rightarrow-\infty} F_{X}(x)=0 lim x F X ( x ) = 1 lim x F X ( x ) = 1 lim_(x rarr oo)F_(X)(x)=1\lim _{x \rightarrow \infty} F_{X}(x)=1 ;


(iii) x F X ( x ) x F X ( x ) x|->F_(X)(x)x \mapsto F_{X}(x) 是右连续且具有左极限的,即,对于任何 a R , lim x a F ( x ) a R , lim x a F ( x ) a inR,lim_(x uarr a)F(x)a \in \mathbb{R}, \lim _{x \uparrow a} F(x) 存在且 lim x a F X ( x ) = lim x a F X ( x ) = lim_(x darr a)F_(X)(x)=\lim _{x \downarrow a} F_{X}(x)= F ( a ) F ( a ) F(a)F(a)

证明。(i) 对于 x < y x < y x < yx<y ,我们有 ( , x ] ( , y ] ( , x ] ( , y ] (-oo,x]sub(-oo,y](-\infty, x] \subset(-\infty, y] ,因此根据引理 1.1.12 F X ( x ) = P X ( ( , x ] ) F X ( x ) = P X ( ( , x ] ) F_(X)(x)=P_(X)((-oo,x]) <=F_{X}(x)=\mathbb{P}_{X}((-\infty, x]) \leq P X ( ( , y ] ) = F ( y ) P X ( ( , y ] ) = F ( y ) P_(X)((-oo,y])=F(y)\mathbb{P}_{X}((-\infty, y])=F(y)


(ii) 通过刚建立的单调性和有界性 F X F X F_(X)F_{X} ,两个极限都存在,因此只需检查 lim n F X ( n ) = 0 lim n F X ( n ) = 0 lim_(n rarr oo)F_(X)(-n)=0\lim _{n \rightarrow \infty} F_{X}(-n)=0 lim n F X ( n ) = 1 lim n F X ( n ) = 1 lim_(n rarr oo)F_(X)(n)=1\lim _{n \rightarrow \infty} F_{X}(n)=1 。我们只展示第一个陈述,第二个作为练习留给读者: ( ( , n ] ) n N ( ( , n ] ) n N ((-oo,-n])_(n inN)((-\infty,-n])_{n \in \mathbb{N}} 是一个递减序列,因此根据引理 1.1.14 的测度连续性,有
lim n F X ( n ) = P X ( n N ( , n ] ) = P X ( ) = 0 lim n F X ( n ) = P X n N ( , n ] = P X ( ) = 0 lim_(n rarr oo)F_(X)(-n)=P_(X)(nnn_(n inN)(-oo,-n])=P_(X)(O/)=0\lim _{n \rightarrow \infty} F_{X}(-n)=\mathbb{P}_{X}\left(\bigcap_{n \in \mathbb{N}}(-\infty,-n]\right)=\mathbb{P}_{X}(\varnothing)=0

(iii) 左极限的存在是由于 F X F X F_(X)F_{X} 是单调递增且有界的。右连续性可以通过测度的连续性再次证明(试试看!)。


2.2. 连续分布和积分理论的简要概述


在定义 2.1.11 中,我们已经遇到了只在单个点上放置概率质量的离散分布。在本科概率模块中,您还会遇到连续分布,其通过累积分布函数 (cdf) 定义如下:如果随机变量 X X XX 的累积分布函数给定为
F X ( x ) = x f ( y ) d y F X ( x ) = x f ( y ) d y F_(X)(x)=int_(-oo)^(x)f(y)dyF_{X}(x)=\int_{-\infty}^{x} f(y) \mathrm{d} y

对于一个概率密度函数 f : R R f : R R f:RrarrRf: \mathbb{R} \rightarrow \mathbb{R} ,其性质足够好,使得上述积分作为黎曼积分是良定义的。这带来了如下公式:
P ( a X b ) = a b f ( y ) d y = [ a , b ] f ( y ) d y P ( a X b ) = a b f ( y ) d y = [ a , b ] f ( y ) d y P(a <= X <= b)=int_(a)^(b)f(y)dy=int_([a,b])f(y)dy\mathbb{P}(a \leq X \leq b)=\int_{a}^{b} f(y) \mathrm{d} y=\int_{[a, b]} f(y) \mathrm{d} y

以至于我们倾向于将相应的分布定义为
P X ( B ) = B f ( y ) d y , B B ( R ) P X ( B ) = B f ( y ) d y , B B ( R ) P_(X)(B)=int_(B)f(y)dy,quad B inB(R)\mathbb{P}_{X}(B)=\int_{B} f(y) \mathrm{d} y, \quad B \in \mathcal{B}(\mathbb{R})

然而,如果集合 B B BB 不像区间(例如 B = Q B = Q B=QB=\mathbb{Q} )那样美好,那么这样的黎曼积分的意义就不清楚。因此,我们需要一种不同的积分概念,即勒贝格积分。

 2.2.1. 勒贝格积分


我们让 ( E , A , μ ) ( E , A , μ ) (E,A,mu)(E, \mathcal{A}, \mu) 再次成为一个一般空间。积分应该用于计算由函数围成的体积或面积。我们已经将 μ ( A ) μ ( A ) mu(A)\mu(A) 解释为集合 A A A A A inAA \in \mathcal{A} 的体积,这也可以解释为关于测度 μ μ mu\mu 的指示函数 1 A 1 A 1_(A)\mathbf{1}_{A} 的积分。那么,考虑到某个标量 α 0 α 0 alpha >= 0\alpha \geq 0 ,这个函数是自然而然的。
f ( x ) = α 1 A ( x ) , x A f ( x ) = α 1 A ( x ) , x A f(x)=alpha1_(A)(x),quad x in Af(x)=\alpha \mathbf{1}_{A}(x), \quad x \in A

将缩放的体积 α μ ( A ) α μ ( A ) alpha mu(A)\alpha \mu(A) 赋值为一个积分,即我们定义
E f ( x ) d μ ( x ) := α μ ( A ) E f ( x ) d μ ( x ) := α μ ( A ) int_(E)f(x)dmu(x):=alpha mu(A)\int_{E} f(x) \mathrm{d} \mu(x):=\alpha \mu(A)

此外,积分应该是线性的,因此对于任何简单的函数形式
f ( x ) := k = 1 n α k 1 A k ( x ) f k ( x ) , x E f ( x ) := k = 1 n α k 1 A k ( x ) f k ( x ) , x E f(x):=sum_(k=1)^(n)ubrace(alpha_(k)1_(A_(k))(x)ubrace)_(f_(k)(x)),quad x in Ef(x):=\sum_{k=1}^{n} \underbrace{\alpha_{k} \mathbf{1}_{A_{k}}(x)}_{f_{k}(x)}, \quad x \in E

对于某些 n N , α 1 , , α n 0 n N , α 1 , , α n 0 n inN,alpha_(1),dots,alpha_(n) >= 0n \in \mathbb{N}, \alpha_{1}, \ldots, \alpha_{n} \geq 0 A 1 , , A n A A 1 , , A n A A_(1),dots,A_(n)inAA_{1}, \ldots, A_{n} \in \mathcal{A} 成对不相交,我们定义
E f ( x ) d μ ( x ) := k = 1 n α k μ ( A k ) = k = 1 n E f k ( x ) d μ ( x ) E f ( x ) d μ ( x ) := k = 1 n α k μ A k = k = 1 n E f k ( x ) d μ ( x ) int_(E)f(x)dmu(x):=sum_(k=1)^(n)alpha_(k)mu(A_(k))=sum_(k=1)^(n)int_(E)f_(k)(x)dmu(x)\int_{E} f(x) \mathrm{d} \mu(x):=\sum_{k=1}^{n} \alpha_{k} \mu\left(A_{k}\right)=\sum_{k=1}^{n} \int_{E} f_{k}(x) \mathrm{d} \mu(x)

为了将勒贝格积分的概念从简单函数扩展到更一般的函数类,我们使用以下基本结果。
Theorem 2.2.1. For any non-negative, measurable function f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R}, there exists an increasing sequence of simple functions ( f n ) n N f n n N (f_(n))_(n inN)\left(f_{n}\right)_{n \in \mathbb{N}} such that we have the pointwise convergence
定理 2.2.1. 对于任何非负的可测函数 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} ,存在一个简单函数的递增序列 ( f n ) n N f n n N (f_(n))_(n inN)\left(f_{n}\right)_{n \in \mathbb{N}} ,使得我们有逐点收敛。
x E : lim n f n ( x ) = f ( x ) x E : lim n f n ( x ) = f ( x ) AA x in E:lim_(n rarr oo)f_(n)(x)=f(x)\forall x \in E: \lim _{n \rightarrow \infty} f_{n}(x)=f(x)
 证明。设

那么 f n f n f_(n)f_{n} 是简单的,对于任何 x R x R x inRx \in \mathbb{R} 明显成立 f n ( x ) f ( x ) f n ( x ) f ( x ) f_(n)(x)rarr f(x)f_{n}(x) \rightarrow f(x) 作为 n n n rarr oon \rightarrow \infty 。此外,如果 x x x inx \in f 1 ( [ k 2 n , ( k + 1 ) 2 n ) ) f 1 k 2 n , ( k + 1 ) 2 n f^(-1)([k2^(-n),(k+1)2^(-n)))f^{-1}\left(\left[k 2^{-n},(k+1) 2^{-n}\right)\right) ,对于某些 k n 2 n 1 k n 2 n 1 k <= n2^(n)-1k \leq n 2^{n}-1 ,那么 f n ( x ) = k 2 n f ( x ) f n ( x ) = k 2 n f ( x ) f_(n)(x)=k2^(-n) <= f(x)f_{n}(x)=k 2^{-n} \leq f(x) ,类似地, f n ( x ) = n f ( x ) f n ( x ) = n f ( x ) f_(n)(x)=n <= f(x)f_{n}(x)=n \leq f(x) 对于 x f 1 ( [ n , ) ) x f 1 ( [ n , ) ) x inf^(-1)([n,oo))x \in f^{-1}([n, \infty)) 。因此, f n f f n f f_(n) <= ff_{n} \leq f 。最后,由此得出
[ k 2 n , ( k + 1 ) 2 n ) = l = 2 k 2 k + 1 [ l 2 ( n + 1 ) , ( l + 1 ) 2 ( n + 1 ) ) , [ n , n + 1 ) = l = 2 ( n + 1 ) ( 2 n 1 ) ( n + 1 ) 2 n + 1 1 ( n + 1 ) , ( l + 1 ) 2 ( n + 1 ) ) k 2 n , ( k + 1 ) 2 n = l = 2 k 2 k + 1 l 2 ( n + 1 ) , ( l + 1 ) 2 ( n + 1 ) , [ n , n + 1 ) = l = 2 ( n + 1 ) 2 n 1 ( n + 1 ) 2 n + 1 1 ( n + 1 ) , ( l + 1 ) 2 ( n + 1 ) ) [k2^(-n),(k+1)2^(-n))=⨄_(l=2k)^(2k+1)[l2^(-(n+1)),(l+1)2^(-(n+1))),quad[n,n+1)=⨄_(l=2(n+1)(2^(n)-1))^((n+1)2^(n+1)-1)ubrace(-(n+1)ubrace),(l+1)2^(-(n+1)))\left[k 2^{-n},(k+1) 2^{-n}\right)=\biguplus_{l=2 k}^{2 k+1}\left[l 2^{-(n+1)},(l+1) 2^{-(n+1)}\right), \quad[n, n+1)=\biguplus_{l=2(n+1)\left(2^{n}-1\right)}^{(n+1) 2^{n+1}-1} \underbrace{-(n+1)},(l+1) 2^{-(n+1)})

f n f n + 1 f n f n + 1 f_(n) <= f_(n+1)f_{n} \leq f_{n+1} 如所愿。


备注 2.2.2。我们称上述一类简单函数的序列为逼近序列。


根据这个结果和对简单函数的勒贝格积分的直观定义,我们现在通过取极限来定义任何可测函数的一般勒贝格积分。为此,我们设 f + ( x ) = max { f ( x ) , 0 } f + ( x ) = max { f ( x ) , 0 } f^(+)(x)=max{f(x),0}f^{+}(x)=\max \{f(x), 0\} 为函数 f f ff 的正部分, f ( x ) = max { f ( x ) , 0 } f ( x ) = max { f ( x ) , 0 } f^(-)(x)=max{-f(x),0}f^{-}(x)=\max \{-f(x), 0\} 为其负部分。注意 f = f + f f = f + f f=f^(+)-f^(-)f=f^{+}-f^{-} | f | = f + + f | f | = f + + f |f|=f^(+)+f^(-)|f|=f^{+}+f^{-} 。此外,如果 f f ff 是可测的,那么 f + f + f^(+)f^{+} f f f^(-)f^{-} 也是可测的,因此 | f | | f | |f||f| 也可测。


定义 2.2.3. 设 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} 为非负可测函数, ( f n ) n N f n n N (f_(n))_(n inN)\left(f_{n}\right)_{n \in \mathbb{N}} 为简单函数的逼近序列。 f f ff 的勒贝格积分定义为
E f d μ E f ( x ) d μ ( x ) := lim n E f n ( x ) d μ ( x ) E f d μ E f ( x ) d μ ( x ) := lim n E f n ( x ) d μ ( x ) int_(E)fdmu-=int_(E)f(x)dmu(x):=lim_(n rarr oo)int_(E)f_(n)(x)dmu(x)\int_{E} f \mathrm{~d} \mu \equiv \int_{E} f(x) \mathrm{d} \mu(x):=\lim _{n \rightarrow \infty} \int_{E} f_{n}(x) \mathrm{d} \mu(x)
We call a measurable function f : E R μ f : E R μ f:E rarrRmuf: E \rightarrow \mathbb{R} \mu-integrable if E | f | d μ < E | f | d μ < int_(E)|f|dmu < oo\int_{E}|f| \mathrm{d} \mu<\infty and define the Lebesgue integral of an integrable function by
我们称一个可测函数为 f : E R μ f : E R μ f:E rarrRmuf: E \rightarrow \mathbb{R} \mu -可积的,如果 E | f | d μ < E | f | d μ < int_(E)|f|dmu < oo\int_{E}|f| \mathrm{d} \mu<\infty ,并通过以下方式定义可积函数的勒贝格积分:
E f d μ = E f + d μ E f d μ E f d μ = E f + d μ E f d μ int_(E)fdmu=int_(E)f^(+)dmu-int_(E)f^(-)dmu\int_{E} f \mathrm{~d} \mu=\int_{E} f^{+} \mathrm{d} \mu-\int_{E} f^{-} \mathrm{d} \mu

备注 2.2.4. (i) 可以证明,如果 ( f n ) n f n n (f_(n))_(n)\left(f_{n}\right)_{n} ( g n ) n g n n (g_(n))_(n)\left(g_{n}\right)_{n} 是非负可测函数 f f ff 的两个逼近函数,那么 lim n E f n d μ = lim n E g n d μ lim n E f n d μ = lim n E g n d μ lim_(n rarr oo)int_(E)f_(n)dmu=lim_(n rarr oo)int_(E)g_(n)dmu\lim _{n \rightarrow \infty} \int_{E} f_{n} \mathrm{~d} \mu=\lim _{n \rightarrow \infty} \int_{E} g_{n} \mathrm{~d} \mu ,这样勒贝格积分是良好定义的。


我们将使用符号 A f d μ := E f 1 A d μ A f d μ := E f 1 A d μ int_(A)fdmu:=int_(E)f1_(A)dmu\int_{A} f \mathrm{~d} \mu:=\int_{E} f 1_{A} \mathrm{~d} \mu


如果 μ = λ μ = λ mu=lambda\mu=\lambda 是 Lebesgue 测度,我们通常写作 A f ( x ) d λ ( x ) = A f ( x ) d x A f ( x ) d λ ( x ) = A f ( x ) d x int_(A)f(x)dlambda(x)=int_(A)f(x)dx\int_{A} f(x) \mathrm{d} \lambda(x)=\int_{A} f(x) \mathrm{d} x

接下来,我们陈述 Lebesgue 积分的一些重要性质。我们省略证明,但策略始终相同:首先建立简单函数的期望陈述,然后通过取极限对非负可测函数进行证明,最后通过分解正负部分得出对 μ μ mu\mu -可积函数的结论。

命题 2.2.5. 假设 f , g : E R f , g : E R f,g:E rarrRf, g: E \rightarrow \mathbb{R} μ μ mu\mu -可积的。


(i) 线性:对于任何 α , β R α , β R alpha,beta inR\alpha, \beta \in \mathbb{R} ,函数 α f + β g α f + β g alpha f+beta g\alpha f+\beta g μ μ mu\mu -可积的,并且
E ( α f + β g ) d μ = α E f d μ + β E g d μ E ( α f + β g ) d μ = α E f d μ + β E g d μ int_(E)(alpha f+beta g)dmu=alphaint_(E)fdmu+betaint_(E)gdmu\int_{E}(\alpha f+\beta g) \mathrm{d} \mu=\alpha \int_{E} f \mathrm{~d} \mu+\beta \int_{E} g \mathrm{~d} \mu

(ii) 单调性:如果 f g μ f g μ f <= g muf \leq g \mu -几乎处处,那么
E f d μ E g d μ E f d μ E g d μ int_(E)fdmu <= int_(E)gdmu\int_{E} f \mathrm{~d} \mu \leq \int_{E} g \mathrm{~d} \mu

(iii) 三角不等式:
| E f d μ | E | f | d μ E f d μ E | f | d μ |int_(E)f(d)mu| <= int_(E)|f|dmu\left|\int_{E} f \mathrm{~d} \mu\right| \leq \int_{E}|f| \mathrm{d} \mu

(四)如果 μ ( N ) = 0 μ ( N ) = 0 mu(N)=0\mu(N)=0 N f d μ = 0 N f d μ = 0 int_(N)fdmu=0\int_{N} f \mathrm{~d} \mu=0

在许多情况下,交换积分顺序和取极限是可取的,接下来的两个强大结果指出了允许这样做的情况。

定理 2.2.6(单调收敛)。设 ( f n ) n N f n n N (f_(n))_(n inN)\left(f_{n}\right)_{n \in \mathbb{N}} 是一列可测的非负函数的增函数,几乎处处收敛至函数 f : E R f : E R f:E rarrRf: E \rightarrow \mathbb{R} ,即 0 f 1 f 2 f n 0 f 1 f 2 f n 0 <= f_(1) <= f_(2) <= cdotsf_(n) <= cdots0 \leq f_{1} \leq f_{2} \leq \cdots f_{n} \leq \cdots lim n f n = f , μ lim n f n = f , μ lim_(n rarr oo)f_(n)=f,mu\lim _{n \rightarrow \infty} f_{n}=f, \mu 几乎处处成立。那么,
lim n E f n d μ = E f d μ lim n E f n d μ = E f d μ lim_(n rarr oo)int_(E)f_(n)dmu=int_(E)fdmu\lim _{n \rightarrow \infty} \int_{E} f_{n} \mathrm{~d} \mu=\int_{E} f \mathrm{~d} \mu

练习 2.2.7. 使用测度的连续性来证明 (2.1) 在特例 f n = 1 A n , A n A f n = 1 A n , A n A f_(n)=1_(A_(n)),A_(n)inAf_{n}=\mathbf{1}_{A_{n}}, A_{n} \in \mathcal{A} A n A n + 1 A n A n + 1 A_(n)subA_(n+1)A_{n} \subset A_{n+1} 对任何 n N n N n inNn \in \mathbb{N}

定理 2.2.8 (主导收敛)。设 f , f 1 , f 2 , f , f 1 , f 2 , f,f_(1),f_(2),dotsf, f_{1}, f_{2}, \ldots μ μ mu\mu -可积函数,使得

 (i) lim n f n = f μ lim n f n = f μ lim_(n rarr oo)f_(n)=f mu\lim _{n \rightarrow \infty} f_{n}=f \mu -几乎处处和

(ii) 存在某个非负的 μ μ mu\mu 可积函数 g g gg 使得 | f n | g μ f n g μ |f_(n)| <= g mu\left|f_{n}\right| \leq g \mu 几乎处处对任何 n N n N n inNn \in \mathbb{N}
 然后,
lim n E f n d μ = E f d μ lim n E f n d μ = E f d μ lim_(n rarr oo)int_(E)f_(n)dmu=int_(E)fdmu\lim _{n \rightarrow \infty} \int_{E} f_{n} \mathrm{~d} \mu=\int_{E} f \mathrm{~d} \mu

 A. 技术附录


引理 1.1.14 的证明。(i) 令 ( B n ) n N B n n N (B_(n))_(n inN)\left(B_{n}\right)_{n \in \mathbb{N}} 定义为
B 1 = A 1 B 2 = A 2 A 1 B n = A n ( A 1 A n 1 ) . B 1 = A 1 B 2 = A 2 A 1 B n = A n A 1 A n 1 . {:[B_(1)=A_(1)],[B_(2)=A_(2)\\A_(1)],[quadvdots],[B_(n)=A_(n)\\(A_(1)uu cdots uuA_(n-1)).]:}\begin{aligned} & B_{1}=A_{1} \\ & B_{2}=A_{2} \backslash A_{1} \\ & \quad \vdots \\ & B_{n}=A_{n} \backslash\left(A_{1} \cup \cdots \cup A_{n-1}\right) . \end{aligned}

显然,这个序列是按对不相交的。此外,请注意,
A n + 1 = ( A n + 1 k = 1 n A k ) k = 1 n A k = B n + 1 k = 1 n A k A n + 1 = A n + 1 k = 1 n A k k = 1 n A k = B n + 1 k = 1 n A k A_(n+1)=(A_(n+1)\\uuu_(k=1)^(n)A_(k))uuuuu_(k=1)^(n)A_(k)=B_(n+1)uuuuu_(k=1)^(n)A_(k)A_{n+1}=\left(A_{n+1} \backslash \bigcup_{k=1}^{n} A_{k}\right) \cup \bigcup_{k=1}^{n} A_{k}=B_{n+1} \cup \bigcup_{k=1}^{n} A_{k}

由于 ( A n ) n A n n (A_(n))_(n)\left(A_{n}\right)_{n} 正在增加。因此,可以通过归纳法容易地得出,对于任何 n N , k = 1 n A k = n N , k = 1 n A k = n inN,uuu_(k=1)^(n)A_(k)=n \in \mathbb{N}, \bigcup_{k=1}^{n} A_{k}= k = 1 n B k k = 1 n B k uuu_(k=1)^(n)B_(k)\bigcup_{k=1}^{n} B_{k} ,因此也有 n = 1 A n = n = 1 B n n = 1 A n = n = 1 B n uuu_(n=1)^(oo)A_(n)=uuu_(n=1)^(oo)B_(n)\bigcup_{n=1}^{\infty} A_{n}=\bigcup_{n=1}^{\infty} B_{n} 。因此,利用不相交性和 σ σ sigma\sigma -可加性,我们得到了
μ ( n N A n ) = μ ( n N B n ) = n N μ ( B n ) = lim n k = 1 n μ ( B k ) = lim n μ ( k = 1 n B k ) = lim n μ ( k = 1 n A k ) = lim n μ ( A n ) , μ n N A n = μ n N B n = n N μ B n = lim n k = 1 n μ B k = lim n μ k = 1 n B k = lim n μ k = 1 n A k = lim n μ A n , {:[mu(uuu_(n inN)A_(n))=mu(uuu_(n inN)B_(n))=sum_(n inN)mu(B_(n))],[=lim_(n rarr oo)sum_(k=1)^(n)mu(B_(k))],[=lim_(n rarr oo)mu(uuu_(k=1)^(n)B_(k))],[=lim_(n rarr oo)mu(uuu_(k=1)^(n)A_(k))],[=lim_(n rarr oo)mu(A_(n))","]:}\begin{aligned} \mu\left(\bigcup_{n \in \mathbb{N}} A_{n}\right)=\mu\left(\bigcup_{n \in \mathbb{N}} B_{n}\right) & =\sum_{n \in \mathbb{N}} \mu\left(B_{n}\right) \\ & =\lim _{n \rightarrow \infty} \sum_{k=1}^{n} \mu\left(B_{k}\right) \\ & =\lim _{n \rightarrow \infty} \mu\left(\bigcup_{k=1}^{n} B_{k}\right) \\ & =\lim _{n \rightarrow \infty} \mu\left(\bigcup_{k=1}^{n} A_{k}\right) \\ & =\lim _{n \rightarrow \infty} \mu\left(A_{n}\right), \end{aligned}

最后一行是基于假设 ( A n ) n A n n (A_(n))_(n)\left(A_{n}\right)_{n} 是递增的。


(ii) 由于 A n + 1 A n A n + 1 A n A_(n+1)supA_(n)A_{n+1} \supset A_{n} ,我们有 A 1 A n A 1 A n + 1 A 1 A n A 1 A n + 1 A_(1)\\A_(n)subA_(1)\\A_(n+1)A_{1} \backslash A_{n} \subset A_{1} \backslash A_{n+1} 。因此,序列 ( A 1 A n ) n A 1 A n n (A_(1)\\A_(n))_(n)\left(A_{1} \backslash A_{n}\right)_{n} 是递增的,(i) 得到
μ ( A 1 n N A n ) = μ ( n N ( A 1 A n ) ) = lim n μ ( A 1 A n ) = lim n ( μ ( A 1 ) μ ( A n ) ) = μ ( A 1 ) lim n μ ( A n ) , μ A 1 n N A n = μ n N A 1 A n = lim n μ A 1 A n = lim n μ A 1 μ A n = μ A 1 lim n μ A n , mu(A_(1)\\nnn_(n inN)A_(n))=mu(uuu_(n inN)(A_(1)\\A_(n)))=lim_(n rarr oo)mu(A_(1)\\A_(n))=lim_(n rarr oo)(mu(A_(1))-mu(A_(n)))=mu(A_(1))-lim_(n rarr oo)mu(A_(n)),\mu\left(A_{1} \backslash \bigcap_{n \in \mathbb{N}} A_{n}\right)=\mu\left(\bigcup_{n \in \mathbb{N}}\left(A_{1} \backslash A_{n}\right)\right)=\lim _{n \rightarrow \infty} \mu\left(A_{1} \backslash A_{n}\right)=\lim _{n \rightarrow \infty}\left(\mu\left(A_{1}\right)-\mu\left(A_{n}\right)\right)=\mu\left(A_{1}\right)-\lim _{n \rightarrow \infty} \mu\left(A_{n}\right),

我们在第三个等式中使用了假设 μ ( A 1 ) < μ A 1 < mu(A_(1)) < oo\mu\left(A_{1}\right)<\infty 。现在,该陈述来自 μ ( ( n N A n ) c ) = 1 μ ( n N A n ) μ n N A n c = 1 μ n N A n mu((nnn_(n inN)A_(n))^(c))=1-mu(nnn_(n inN)A_(n))\mu\left(\left(\bigcap_{n \in \mathbb{N}} A_{n}\right)^{\mathrm{c}}\right)=1-\mu\left(\bigcap_{n \in \mathbb{N}} A_{n}\right)

命题 2.1.2 的证明。如果 f f ff 是可测的,那么由于 E σ ( E ) = B ( R ) E σ ( E ) = B ( R ) Esub sigma(E)=B(R)\mathcal{E} \subset \sigma(\mathcal{E})=\mathcal{B}(\mathbb{R}) ,则有 f 1 ( E ) B ( R ) f 1 ( E ) B ( R ) f^(-1)(E)subB(R)f^{-1}(\mathcal{E}) \subset \mathcal{B}(\mathbb{R}) 。反之,假设 f 1 ( E ) B ( R ) f 1 ( E ) B ( R ) f^(-1)(E)subB(R)f^{-1}(\mathcal{E}) \subset \mathcal{B}(\mathbb{R}) 。考虑集合族
C := { B B ( R ) : f 1 ( B ) A } C := B B ( R ) : f 1 ( B ) A C:={B inB(R):f^(-1)(B)inA}C:=\left\{B \in \mathcal{B}(\mathbb{R}): f^{-1}(B) \in \mathcal{A}\right\}

我们声称 C C C\mathcal{C} R R R\mathbb{R} 上的 σ σ sigma\sigma -代数。实际上,
 A. 技术附录

(i) R C R C RinC\mathbb{R} \in \mathcal{C} f 1 ( R ) = E A f 1 ( R ) = E A f^(-1)(R)=E inAf^{-1}(\mathbb{R})=E \in \mathcal{A} ;


如果 B C B C B inCB \in \mathcal{C}
f 1 ( B c ) = f 1 ( R ) f 1 ( B ) = R f 1 ( B ) A A f 1 B c = f 1 ( R ) f 1 ( B ) = R f 1 ( B ) A A f^(-1)(B^(c))=f^(-1)(R)\\f^(-1)(B)=R\\ubrace(f^(-1)(B)ubrace)_(inA)inAf^{-1}\left(B^{\mathrm{c}}\right)=f^{-1}(\mathbb{R}) \backslash f^{-1}(B)=\mathbb{R} \backslash \underbrace{f^{-1}(B)}_{\in \mathcal{A}} \in \mathcal{A}

由于 σ σ sigma\sigma -代数 A A A\mathcal{A} 在取补运算下是封闭的。因此, B c C B c C B^(c)inCB^{\mathrm{c}} \in \mathcal{C} 也跟着成立;


(iii) 对于序列 ( B n ) n N C B n n N C (B_(n))_(n inN)subC\left(B_{n}\right)_{n \in \mathbb{N}} \subset \mathcal{C} ,我们有
f 1 ( n N B n ) = n N f 1 ( B n ) A A f 1 n N B n = n N f 1 B n A A f^(-1)(uuu_(n inN)B_(n))=uuu_(n inN)ubrace(f^(-1)(B_(n))ubrace)_(inA)inAf^{-1}\left(\bigcup_{n \in \mathbb{N}} B_{n}\right)=\bigcup_{n \in \mathbb{N}} \underbrace{f^{-1}\left(B_{n}\right)}_{\in \mathcal{A}} \in \mathcal{A}

其中包含来自 σ σ sigma\sigma -代数的 σ σ sigma\sigma -稳定性。因此, n B n C n B n C uuu_(n)B_(n)inC\bigcup_{n} B_{n} \in \mathcal{C}


我们已经证明 C C C\mathcal{C} 是一个 σ σ sigma\sigma -代数,并根据 C C C\mathcal{C} 的定义我们有 E C E C EsubC\mathcal{E} \subset \mathcal{C} 。由于 σ ( E ) σ ( E ) sigma(E)\sigma(\mathcal{E}) 是包含 E E E\mathcal{E} 的最小 σ σ sigma\sigma -代数,这意味着 B ( R ) = σ ( E ) C B ( R ) = σ ( E ) C B(R)=sigma(E)subC\mathcal{B}(\mathbb{R})=\sigma(\mathcal{E}) \subset \mathcal{C} 如所期望的。

  1. 1 1 ^(1){ }^{1} Note here that if we start with a distribution P X P X P_(X)\mathbb{P}_{X} on ( R , B ( R ) ) ( R , B ( R ) ) (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})), we can always construct a probability space ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) and a random variable X : Ω R X : Ω R X:Omega rarrRX: \Omega \rightarrow \mathbb{R} such that P X P X P_(X)\mathbb{P}_{X} is the distribution of X X XX. Indeed, we may simply set Ω = R , F = B ( R ) , P = P X Ω = R , F = B ( R ) , P = P X Omega=R,F=B(R),P=P_(X)\Omega=\mathbb{R}, \mathcal{F}=\mathcal{B}(\mathbb{R}), \mathbb{P}=\mathbb{P}_{X} and X ( ω ) = ω X ( ω ) = ω X(omega)=omegaX(\omega)=\omega for all ω R ω R omega inR\omega \in \mathbb{R}. This is referred to as the canonical construction.
    注意,这里如果我们从分布 P X P X P_(X)\mathbb{P}_{X} 开始在 ( R , B ( R ) ) ( R , B ( R ) ) (R,B(R))(\mathbb{R}, \mathcal{B}(\mathbb{R})) 上,我们总是可以构建一个概率空间 ( Ω , F , P ) ( Ω , F , P ) (Omega,F,P)(\Omega, \mathcal{F}, \mathbb{P}) 和一个随机变量 X : Ω R X : Ω R X:Omega rarrRX: \Omega \rightarrow \mathbb{R} 使得 P X P X P_(X)\mathbb{P}_{X} X X XX 的分布。实际上,我们可以简单地为所有 ω R ω R omega inR\omega \in \mathbb{R} 设置 Ω = R , F = B ( R ) , P = P X Ω = R , F = B ( R ) , P = P X Omega=R,F=B(R),P=P_(X)\Omega=\mathbb{R}, \mathcal{F}=\mathcal{B}(\mathbb{R}), \mathbb{P}=\mathbb{P}_{X} X ( ω ) = ω X ( ω ) = ω X(omega)=omegaX(\omega)=\omega 。这被称为标准构造。