Cụm Estimation and Inference — Ước lượng và suy diễn

Cụm này trả lời câu hỏi nền của mọi nghiên cứu định lượng: lấy một mẫu dữ liệu hữu hạn, ước lượng tham số của tổng thể, và biết được con số ước lượng đó đáng tin tới đâu. Nó là cây cầu nối từ "thống kê mô tả một mẫu" (cụm 02) sang "kiểm định giả thuyết" (reading kế). Nó trả lời bốn câu:

Lấy mẫu kiểu gì để ít sai lệch? → kỹ thuật lấy mẫu (nhóm 1).
Trung bình mẫu phân phối ra sao khi mẫu đủ lớn? → định lý giới hạn trung tâm (nhóm 2).
Trung bình mẫu lệch khỏi trung bình thật bao nhiêu? → sai số chuẩn (nhóm 2).
Ước lượng độ tin cậy khi không có công thức giải tích? → resampling jackknife/bootstrap (nhóm 3).

Đây là lớp suy diễn thống kê — đầu vào trực tiếp cho khoảng tin cậy, kiểm định giả thuyết, và mọi câu "kết quả backtest này có thật hay may rủi".

Nguồn: Schweser 2025 L1 Book 1, Reading 7 (Estimation and Inference).
Vòng: đây là vòng 1 theo quy trình sinh nội dung — phần văn bản để hiểu. Code + test + lab là vòng 2, làm sau.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = tổng thể (cái ta muốn biết nhưng không quan sát hết được); xanh nhạt = bước lấy mẫu và tính trung bình; xanh lá = sản phẩm suy diễn nối thẳng ra kết luận (sai số chuẩn, khoảng tin cậy, resampling).
Mạch chính — từ tổng thể rút mẫu, tính trung bình mẫu; định lý giới hạn trung tâm bảo trung bình mẫu phân phối chuẩn, từ đó ra sai số chuẩn rồi khoảng tin cậy. Resampling là nhánh thay thế để ước lượng sai số chuẩn khi không có công thức.

Glossary nhãn chart (English → tiếng Việt):

Population — tổng thể: toàn bộ dữ liệu ta muốn biết tham số của nó (vd mọi lợi nhuận tương lai của một cổ phiếu).
Sampling methods — các kỹ thuật lấy mẫu: cách rút một phần dữ liệu ra để nghiên cứu.
Sample mean — trung bình mẫu: trung bình tính trên phần dữ liệu rút ra.
Central limit theorem (CLT) — định lý giới hạn trung tâm: quy luật khiến trung bình mẫu phân phối chuẩn khi mẫu đủ lớn.
Standard error — sai số chuẩn: độ dao động của trung bình mẫu quanh trung bình thật.
Confidence interval (CI) — khoảng tin cậy: dải số có khả năng cao chứa trung bình thật.
Resampling (jackknife, bootstrap) — lấy mẫu lại: rút mẫu nhiều lần từ chính dữ liệu để ước lượng độ tin cậy mà không cần công thức.

1. Kỹ thuật lấy mẫu (sampling methods)

Lấy mẫu là rút một phần dữ liệu để suy ra tính chất của cả tổng thể. Chia hai họ lớn theo việc ta có biết xác suất mỗi phần tử được chọn hay không.

1.1 Lấy mẫu xác suất — probability sampling

Mỗi phần tử của tổng thể có một xác suất được chọn biết trước. Ít sai lệch hơn vì việc chọn không phụ thuộc ý chủ quan.

Lấy mẫu ngẫu nhiên đơn giản (simple random sampling):
- Mỗi phần tử có xác suất được chọn bằng nhau (vd đánh số 50 món, bốc ngẫu nhiên 5 số).
- Là chuẩn so sánh: các kiểu khác đo "sai lệch lấy mẫu" tương đối so với kiểu này.
- Một biến thể gần ngẫu nhiên là lấy mẫu hệ thống (systematic) — chọn cứ mỗi phần tử thứ $n$ .
Lấy mẫu phân tầng (stratified random sampling):
- Chia tổng thể thành các tầng theo đặc điểm phân biệt (vd trái phiếu chia theo kỳ hạn và lãi suất coupon), rồi rút ngẫu nhiên từ MỖI tầng, số lượng tỷ lệ với cỡ tầng.
- Đảm bảo mọi tầng đều có mặt trong mẫu — dùng nhiều trong việc dựng quỹ bám chỉ số trái phiếu (bond indexing).
Lấy mẫu cụm (cluster sampling):
- Chia tổng thể thành các cụm, GIẢ ĐỊNH mỗi cụm đại diện cho cả tổng thể (vd dữ liệu thu nhập cư dân chia theo từng quận).
- Một tầng (stage): chọn ngẫu nhiên một số cụm, lấy TẤT CẢ dữ liệu trong cụm đó. Hai tầng (stage): chọn cụm ngẫu nhiên rồi lại rút mẫu ngẫu nhiên trong từng cụm.
- Khác phân tầng ở chỗ phân tầng rút từ MỌI nhóm, còn cụm chỉ rút từ MỘT SỐ nhóm → cụm rẻ và nhanh hơn nhưng sai lệch lấy mẫu lớn hơn.

1.2 Lấy mẫu phi xác suất — nonprobability sampling

Chọn dựa trên chi phí thấp / dễ truy cập, hoặc theo phán đoán của người nghiên cứu. Ít ngẫu nhiên hơn → sai lệch lấy mẫu lớn hơn.

Lấy mẫu tiện lợi (convenience sampling): chọn dữ liệu nào dễ lấy nhất; nhanh nhưng thường không ngẫu nhiên → sai lệch lớn.
Lấy mẫu phán đoán (judgmental sampling): người nghiên cứu tự chọn quan sát dựa trên kinh nghiệm (vd chỉ soi vài chỉ số tài chính nghi có gian lận); tốt nếu phán đoán đúng, nhưng dễ dính thiên kiến của người chọn.
Cảnh báo phân phối đổi theo thời gian: trộn dữ liệu qua một mốc đứt gãy (vd ngân hàng Mỹ trước và sau cải cách hậu khủng hoảng 2007-2008) cho ra trung bình mẫu không đại diện cho giai đoạn nào cả.

2. Định lý giới hạn trung tâm và sai số chuẩn

Đây là phần lõi của cả reading. Ý tưởng then chốt: bản thân trung bình mẫu cũng là một biến ngẫu nhiên — rút mẫu khác nhau ra trung bình khác nhau — nên nó có phân phối riêng, và ta cần biết phân phối đó.

2.1 Định lý giới hạn trung tâm — central limit theorem (CLT)

Với mẫu ngẫu nhiên đơn giản cỡ $n$ rút từ tổng thể có trung bình $μ$ và phương sai hữu hạn $σ^{2}$ , phân phối của trung bình mẫu tiến tới phân phối chuẩn khi $n$ lớn:

\bar{x} \sim N (μ, \frac{σ^{2}}{n}) khi n \geq 30

Biến:
- $\bar{x}$ — trung bình mẫu (đọc là "x ngang"), biến ngẫu nhiên thay đổi theo từng mẫu rút ra.
- $μ$ — trung bình thật của tổng thể.
- $σ^{2}$ — phương sai của tổng thể.
- $n$ — cỡ mẫu; quy ước "đủ lớn" là $n \geq 30$ .
Ý nghĩa:
- Phép màu của định lý: dù tổng thể phân phối kiểu gì (lệch, nhiều mode, đuôi béo), trung bình của các mẫu đủ lớn vẫn xấp xỉ chuẩn → cho phép dùng bảng z quen thuộc cho mọi loại dữ liệu.
- Hai số định danh phân phối đó: tâm của nó đúng bằng trung bình thật $μ$ (không lệch), còn độ rộng là $σ^{2} / n$ — co lại khi mẫu to ra.
- Đây là lý do mọi kiểm định giả thuyết và khoảng tin cậy về trung bình đều xài được phân phối chuẩn — không có định lý này thì không suy diễn được gì khi tổng thể không chuẩn.

2.2 Sai số chuẩn của trung bình mẫu — standard error (phương sai tổng thể đã biết)

Sai số chuẩn là độ lệch chuẩn của phân phối các trung bình mẫu — căn của phương sai $σ^{2} / n$ ở trên:

σ_{\bar{x}} = \frac{σ}{\sqrt{n}}

Biến:
- $σ_{\bar{x}}$ — sai số chuẩn của trung bình mẫu.
- $σ$ — độ lệch chuẩn của tổng thể.
- $\sqrt{n}$ — căn bậc hai cỡ mẫu ở mẫu số.
Ý nghĩa:
- Đo trung bình mẫu của ta dao động bao xa quanh trung bình thật — sai số chuẩn nhỏ nghĩa là con số ước lượng đáng tin.
- Khác với độ lệch chuẩn thường (tả độ dao động của TỪNG quan sát), sai số chuẩn tả độ dao động của TRUNG BÌNH — bị chia thêm cho $\sqrt{n}$ nên luôn nhỏ hơn.
- Mẫu càng to thì sai số chuẩn càng nhỏ nhưng theo căn, không tuyến tính: muốn giảm sai số một nửa phải tăng mẫu gấp BỐN lần — quy luật lợi ích giảm dần khi gom thêm dữ liệu.

2.3 Sai số chuẩn ước lượng — standard error (phương sai tổng thể chưa biết)

Thực tế gần như không bao giờ biết $σ$ của tổng thể, nên thay bằng độ lệch chuẩn mẫu $s$ :

s_{\bar{x}} = \frac{s}{\sqrt{n}}

Biến:
- $s_{\bar{x}}$ — sai số chuẩn ước lượng của trung bình mẫu.
- $s$ — độ lệch chuẩn của mẫu (tính từ chính dữ liệu rút ra).
- $\sqrt{n}$ — căn bậc hai cỡ mẫu.
Ý nghĩa:
- Đây là công thức dùng trong thực tế gần như mọi lúc — vì $σ$ của tổng thể là ẩn số, ta lấy độ lệch chuẩn của chính mẫu thay vào.
- Cùng cách đọc với 2.2: số càng nhỏ thì trung bình mẫu càng đáng tin; vẫn co theo $1 / \sqrt{n}$ .
- Là mẫu số của thống kê kiểm định ở reading kế (test statistic = (trung bình mẫu - giá trị giả định) / sai số chuẩn) — nên nắm chắc đây trước khi sang kiểm định giả thuyết.

2.4 Khoảng tin cậy của trung bình — confidence interval

Ghép trung bình mẫu (tâm) với sai số chuẩn (độ rộng) thành một dải có khả năng cao chứa trung bình thật:

\bar{x} \pm z_{α / 2} \cdot s_{\bar{x}}

Biến:
- $\bar{x}$ — trung bình mẫu, tâm của khoảng.
- $z_{α / 2}$ — giá trị tới hạn từ bảng chuẩn ứng với mức tin cậy (vd tin cậy 95% thì $z = 1.96$ ).
- $s_{\bar{x}}$ — sai số chuẩn (độ rộng mỗi đơn vị).
Ý nghĩa:
- Bản chất: lấy ước lượng điểm cộng/trừ một biên sai số — biên = mấy lần sai số chuẩn, "mấy lần" do mức tin cậy quyết định.
- Cách đọc đúng: "nếu lặp lại việc lấy mẫu nhiều lần, 95% các khoảng dựng kiểu này sẽ chứa trung bình thật" — KHÔNG phải "có 95% khả năng trung bình thật nằm trong khoảng cụ thể này".
- Ứng dụng quant: khoảng tin cậy của alpha/Sharpe mà đi qua 0 nghĩa là chưa phân biệt được với may rủi — đây chính là cây gậy "CI không qua 0 mới conclusive" trong giao thức chống rò rỉ.

3. Lấy mẫu lại (resampling)

Khi công thức giải tích cho sai số chuẩn không có sẵn (vd với trung vị, hoặc thống kê phức tạp), ta ước lượng độ tin cậy bằng cách rút mẫu lặp lại từ chính dữ liệu. Hai kỹ thuật: jackknife và bootstrap.

3.1 Jackknife

Cách làm: tính $n$ trung bình mẫu, mỗi lần BỎ ĐI đúng một quan sát; lấy độ lệch chuẩn của $n$ trung bình đó làm ước lượng sai số chuẩn.
Ý nghĩa:
- Nhẹ về tính toán (chỉ $n$ lần lặp) → dùng được khi số quan sát ít; ra đời thời máy tính còn yếu, đúng kiểu "con dao đa năng" có sẵn trong túi.
- Công dụng riêng: gỡ bớt thiên lệch (bias) khỏi ước lượng thống kê.

3.2 Bootstrap

Cách làm: rút lặp lại nhiều mẫu cỡ $n$ từ TOÀN BỘ dữ liệu, mỗi lần rút xong TRẢ LẠI quan sát (có hoàn lại) nên một quan sát có thể bị rút trùng; tính độ lệch chuẩn của các trung bình mẫu này làm ước lượng sai số chuẩn.
Ý nghĩa:
- Nặng tính toán hơn jackknife (cần rất nhiều lần rút) nhưng chính xác hơn so với chỉ dùng một mẫu duy nhất.
- Linh hoạt: dựng được khoảng tin cậy cho mọi thống kê — kể cả trung vị hay các thống kê phức tạp KHÔNG có công thức giải tích.
Đánh đổi: kết quả mô phỏng chỉ tốt ngang giả định đầu vào — bootstrap trên dữ liệu lịch sử bị bó trong dải các kết cục đã từng xảy ra (không sinh ra được tình huống "what-if" ngoài dữ liệu, khác mô phỏng Monte Carlo).

4. Node ghép ra chiến lược

Sai số chuẩn → thống kê kiểm định — mẫu số của test statistic; nền của reading Hypothesis Testing kế tiếp.
Khoảng tin cậy → verdict có/không alpha — CI của Sharpe/alpha đi qua 0 = chưa chứng minh được edge, đúng cây gậy chống rò rỉ trong workspace.
Bootstrap → bootstrap CI cho Sharpe — cách thực dụng nhất để gắn khoảng tin cậy cho một chỉ số backtest không có công thức giải tích.
CLT (n ≥ 30) → cỡ mẫu tối thiểu — lý do mọi backtest cần đủ số kỳ độc lập trước khi dám kết luận.

5. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md (gồm ví dụ sai số chuẩn lấy từ Schweser + ví dụ khoảng tin cậy và phân tầng tự dựng, đồng thời là mầm test vòng 2).

6. Liên hệ bức tranh gốc

Cụm này = lớp suy diễn đứng giữa thống kê mô tả (cụm 02) và kiểm định giả thuyết (reading kế):
- Cụm 02 tả MỘT mẫu; cụm này hỏi mẫu đó nói gì về TỔNG THỂ và đáng tin tới đâu.
- Sai số chuẩn và khoảng tin cậy là công cụ định lượng "đáng tin tới đâu".
Vai trò với anh: phần này anh mạnh sẵn từ nền ML, ở đây chỉ đóng lại theo ngôn ngữ tài chính:
- Vì sao sai số chuẩn co theo $1 / \sqrt{n}$ (gấp bốn mẫu mới giảm nửa sai số).
- Vì sao CLT cho phép dùng bảng z dù lợi nhuận không chuẩn.
- Vì sao bootstrap là cách thực dụng gắn CI cho Sharpe.
Kết nối anti-leakage: đúng chỗ giao thức chống rò rỉ của workspace đòi "CI không đi qua 0 mới conclusive" và "đủ cỡ mẫu" — cụm này là gốc lý thuyết của hai đòi hỏi đó.

Cụm Estimation and Inference — Ước lượng và suy diễn ​

Đồ thị khái niệm ​

1. Kỹ thuật lấy mẫu (sampling methods) ​

1.1 Lấy mẫu xác suất — probability sampling ​

1.2 Lấy mẫu phi xác suất — nonprobability sampling ​

2. Định lý giới hạn trung tâm và sai số chuẩn ​

2.1 Định lý giới hạn trung tâm — central limit theorem (CLT) ​

2.2 Sai số chuẩn của trung bình mẫu — standard error (phương sai tổng thể đã biết) ​

2.3 Sai số chuẩn ước lượng — standard error (phương sai tổng thể chưa biết) ​

2.4 Khoảng tin cậy của trung bình — confidence interval ​

3. Lấy mẫu lại (resampling) ​

3.1 Jackknife ​

3.2 Bootstrap ​

4. Node ghép ra chiến lược ​

5. Bài tập có lời giải ​

6. Liên hệ bức tranh gốc ​