PRML Chapter 1.2.2 (Probability Densities | Bayesian Probabilities)
Kì vọng (expectation) là một trong nhất concept quan trọng nhất của xác suất. Giá trị trung bình của một hàm biến ngẫu nhiên $f(x)$ nào đó với $x$ có phân phối xác suất $p(x)$ được gọi là kì vọng của $f(x)$ và được kí hiệu là $\mathbb{E}[f]$.
Ta có thể thấy kì vọng của $f(x)$ với $x$ là biến sẽ là trung bình có trọng số của các giá trị $f(x)$, trong đó trọng số chính là xác suất của các giá trị $x$ khác nhau ($p(x)$).
Trung bình có trọng số của $(x_1, \dots, x_n)$ với trọng số $(w_1, \dots, w_n)$ sẽ là:
Ở kì vọng của biến ngẫu nhiên rời rạc $x$, ta có trọng số là các xác suất $p(x)$ mà $\sum_{x}p(x) = 1$ do đó mẫu bị triệt tiêu.
Nếu $x$ là một biến liên tục (khi này $p(x)$ là mật độ xác suất của $x$), ta có:
Vậy nếu $f(x) = x$ thì ta có:
Đây là công thức mà ta thường gặp hơn.
Ngoài ra, nếu lấy $N$ điểm ngẫu nhiên $(x_1, \dots, x_n)$ từ phân phối xác suất (nếu $x$ là rời rạc) hoặc mật độ xác suất (nếu $x$ là liên tục) thì ta có thể xấp xỉ giá trị kì vọng bằng cách sau
Đôi lúc, ta cũng quan tâm đến kì vọng của một hàm nhiều biến, ví dụ ta có hàm $f(x, y)$ (2 biến) để kí hiệu kì vọng của 1 biến mà ta quan tâm, ví dụ biến ngẫu nhiên $x$, ta sẽ dùng $\mathbb{E}_{x}[f(x, y)]$ (nghĩa là lấy trung bình trên biến $x$).
Vậy nếu ta không phân biệt kì vọng của $x$ hay $y$ thì khi đó:
Lưu ý rằng, lúc này kì vọng $\mathbb{E}[f(x, y)]$ là một số thực, trong khi đó \(\mathbb{E}_{x}[f(x, y)]\) hay $\mathbb{E}_{y}[f(x, y)]$ là một hàm phụ thuộc vào biến còn lại.
Ngoài ra, ta cũng quan tâm đến kì vọng có điều kiện (conditional expectation) của một hàm $f(x)$ trong đó $x$ có phân phối điều kiện là $p(x \mid y)$.
Phương sai (variance) của hàm $f(x)$ với $x$ là biến ngẫu nhiên được kí hiệu là $\text{var}[f]$ và được định nghĩa như sau:
\[\text{var}[f] = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2]\]Có thể thấy, $\text{var}[f]$ là đại lượng cho thấy độ biến thiên (sự khác nhau) giữa giá trị $f(x)$ và trung bình $\mathbb{E}[f(x)]$ của nó (sự khác nhau $= (f(x) - \mathbb{E}[f(x)])^2$). Ngoài ra ta có thể viết
Một điểm đáng chú ý như ta đã nói ở trên, tại sao sự khác nhau giữa $f(x)$ và trung bình của nó lại lấy bình phương mà sao không lấy cách khác (ví dụ dùng giá trị tuyệt đối), có thể tìm hiểu thêm tại definition - Why square the difference instead of taking the absolute value in standard deviation? - Cross Validated (stackexchange.com).
Xét hai biến ngẫu nhiên $x$ và $y$, ta định nghĩa hiệp phương sai (covariance) của $x$ và $y$ là:
\[\begin{aligned} \text{cov}[x, y] &= \mathbb{E}_{x, y} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])] \\ &= \mathbb{E}_{x, y}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{aligned}\]Giả sử $x$ và $y$ là hai biến ngẫu nhiên liên tục độc lập với nhau (rời rạc ta làm tương tự), tức là $p(x, y) = p(x)p(y)$. Khi đó:
\[\begin{aligned} \mathbb{E}_{x, y}[xy] &= \int \int p(x, y) \hspace{3pt} xy \hspace{3pt} dx dy \\ &= \int \int p(x)p(y) \hspace{3pt} xy \hspace{3pt} dx dy \\ &= \int p(y)y \left[ \int p(x)xdx \right] dy \\ &= \int p(y)y \left[ \mathbb{E}[x] \right]dy \\ &= \mathbb{E}[x] \int p(y)y dy\\ &= \mathbb{E}[x] \mathbb{E}[y] \end{aligned}\]Do đó $\text{cov}[x, y] = 0$. Vậy nếu hai biến ngẫu nhiên $x$ và $y$ độc lập với nhau thì hiệp phương sai của $x$ và $y$ là $0$. Tuy nhiên, ngược lại không đúng, tức là hiệp phương sai bằng $0$ thì không có nghĩa là $x$ và $y$ độc lập với nhau.
Nếu ta xét hiệp phương sai giữa hai vector ngẫu nhiên $\mathbf{x} = (x_1, x_{2} \dots)$ và $\mathbf{y} = (y_{1}, y_{2}, \dots)$. Ta có:
\[\begin{aligned} \text{cov}[\mathbf{x}, \mathbf{y}] &= \mathbb{E}[(\mathbf{x} - \mathbb{E}[\mathbf{x}])(\mathbf{y} - \mathbb{E}[\mathbf{y}])^T] \\ &= \mathbb{E}_{\mathbf{x}, \mathbf{y}}[\mathbf{x}\mathbf{y}^T] - \mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^T] \end{aligned}\]Nếu ta xét hiệp phương sai giữa biến ngẫu nhiên $x$ với chính nó, ta có thể viết $\text{cov}[x]$ thay cho $\text{cov}[x, x]$. Tương tự với vector ngẫu nhiên $\mathbf{x}$, $\text{cov}[\mathbf{x}, \mathbf{x}] \equiv \text{cov}[\mathbf{x}]$:
\[\text{cov}[\mathbf{x}] = \mathbb{E}[(\mathbf{x} - \mathbb{E}[\mathbf{x}])(\mathbf{x} - \mathbb{E}[\mathbf{x}])^T]\]