Cụm Hypothesis Testing — Kiểm định giả thuyết

Cụm này là bộ thủ tục quyết định dựa trên dữ liệu mẫu: từ một mẫu nhỏ rút ra kết luận về cả tổng thể, kèm thước đo "khả năng kết luận này sai vì may rủi".

Một niềm tin có đáng tin không? → dựng giả thuyết null/alternative (nhóm 1).
Đặt cược sai theo hướng nào, xác suất bao nhiêu? → sai lầm loại I / loại II + độ mạnh (nhóm 2).
Trung bình mẫu lệch khỏi niềm tin bao nhiêu lần độ ồn? → thống kê kiểm định cho trung bình (nhóm 3).
Còn khi kiểm về độ dao động (phương sai) thì dùng gì? → chi-square cho một phương sai, F-test cho hai phương sai (nhóm 4).
Bằng chứng mạnh tới đâu, một phía hay hai phía? → giá trị tới hạn, p-value, quy tắc quyết định (nhóm 5).

Đây là lớp ra quyết định thống kê — đứng giữa thống kê mô tả (cụm trước) và mọi claim "factor này có alpha thật" về sau. Với nền ML của anh, đây chính là bộ khung "kết quả có ý nghĩa hay chỉ là nhiễu", đóng lại theo ngôn ngữ tài chính.

Nguồn: Schweser 2025 L1 Book 1, Reading 8 (Hypothesis Testing).
Vòng: vòng 1 — văn bản để hiểu. Code + test + lab là vòng 2.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = niềm tin gốc cần kiểm; xanh nhạt = đại lượng tính ra từ mẫu; xanh lá = phần quyết định + rủi ro kết luận sai.
Hướng — từ niềm tin tách ra cặp null/alternative; mẫu cho ra thống kê kiểm định; so với giá trị tới hạn (hoặc dùng p-value) ra quyết định; quyết định gắn liền hai loại sai lầm và độ mạnh.

Glossary nhãn chart (English → tiếng Việt giải nghĩa):

Belief about parameter — niềm tin về một tham số tổng thể (vd trung bình lợi nhuận khác 0).
Null hypothesis H0 — giả thuyết gốc, cái ta muốn bác bỏ; luôn chứa dấu "bằng".
Alt hypothesis Ha — giả thuyết đối, cái ta thật sự muốn chứng minh khi bác bỏ được H0.
Test statistic — thống kê kiểm định: độ lệch của mẫu so với giá trị giả định, đo bằng số lần độ ồn chuẩn.
Standard error — sai số chuẩn: độ ồn của thống kê mẫu (mẫu số của thống kê kiểm định).
Significance level — mức ý nghĩa: xác suất chấp nhận bác bỏ nhầm H0 đúng (ta tự đặt, vd 5%).
Critical value — giá trị tới hạn: ngưỡng cắt; vượt qua thì bác bỏ H0.
p-value — xác suất quan sát được dữ liệu lệch ít nhất bằng mẫu, giả định H0 đúng.
Reject or fail to reject — quyết định cuối: bác bỏ H0, hoặc không đủ bằng chứng để bác bỏ.
Type I error — sai lầm loại I: bác bỏ nhầm H0 đúng.
Type II error — sai lầm loại II: không bác bỏ H0 trong khi H0 sai.
Power of test — độ mạnh: xác suất bác bỏ đúng H0 khi H0 thật sự sai.

1. Dựng giả thuyết (formulating hypotheses)

Mọi kiểm định bắt đầu bằng việc chẻ niềm tin thành hai mệnh đề loại trừ nhau và phủ kín mọi khả năng. Ta không bao giờ "chứng minh" giả thuyết đối trực tiếp — chỉ gom đủ bằng chứng để bác bỏ giả thuyết gốc.

1.1 Giả thuyết gốc và giả thuyết đối — null vs alternative hypothesis

H_{0} : μ = μ_{0} H_{a} : μ \neq μ_{0}

Biến:
- $μ$ — tham số thật của tổng thể (vd trung bình lợi nhuận thật, ta không biết).
- $μ_{0}$ — giá trị giả định ta đem ra kiểm (vd 0%).
- $H_{0}$ — giả thuyết gốc (null): mệnh đề ta muốn bác bỏ, luôn chứa dấu bằng.
- $H_{a}$ — giả thuyết đối (alternative): điều được kết luận khi bác bỏ được $H_{0}$ .
Ý nghĩa:
- Logic ngược: ta đặt $H_{0}$ là điều mình nghi ngờ là sai, rồi tìm bằng chứng đủ mạnh để loại nó — giống bác bỏ giả thuyết "không có hiệu ứng" trong A/B test.
- Hai mệnh đề loại trừ nhau và phủ kín: không kết quả nào thỏa cả hai, và mọi kết quả đều rơi vào một trong hai.
- Không bác bỏ được $H_{0}$ thì nói "chưa đủ bằng chứng", KHÔNG được nói "chấp nhận $H_{0}$ " — vắng bằng chứng không phải bằng chứng vắng mặt.
Mẹo đặt: điều nhà nghiên cứu muốn chứng minh luôn đặt vào $H_{a}$ ; phần còn lại (kèm dấu bằng) vào $H_{0}$ .

1.2 Một phía và hai phía — one-tailed vs two-tailed

hai phía: H_{a} : μ \neq μ_{0} một phía: H_{a} : μ > μ_{0} hoặc H_{a} : μ < μ_{0}

Biến:
- $\neq$ — quan tâm lệch về cả hai hướng (lớn hơn hoặc nhỏ hơn) → hai phía.
- $>$ hoặc $<$ — chỉ quan tâm lệch về một hướng → một phía.
Ý nghĩa:
- Hai phía chia mức ý nghĩa làm đôi đặt vào hai đuôi (vd 5% → 2.5% mỗi đuôi); một phía dồn hết mức ý nghĩa vào một đuôi.
- Cùng một mức ý nghĩa, kiểm một phía có giá trị tới hạn gần 0 hơn → dễ bác bỏ hơn, nhưng chỉ khi ta thật sự có lý do chỉ quan tâm một hướng (vd "lợi nhuận có dương không").
- Chọn một/hai phía phải quyết trước khi nhìn dữ liệu — nhìn rồi mới chọn phía cho dễ pass là một dạng rò rỉ hindsight.

2. Hai loại sai lầm và độ mạnh (errors and power)

Vì kết luận rút từ mẫu nhỏ, luôn có khả năng mẫu không đại diện cho tổng thể → kết luận sai. Có đúng hai kiểu sai, và ta đánh đổi giữa chúng.

2.1 Sai lầm loại I và loại II — Type I & Type II error

P (Type I) = α P (Type II) = β

Biến:
- Loại I — bác bỏ nhầm $H_{0}$ đúng ("báo động giả": kết luận có hiệu ứng trong khi không có).
- Loại II — không bác bỏ $H_{0}$ trong khi $H_{0}$ sai ("bỏ sót": có hiệu ứng thật mà không phát hiện).
- $α$ — xác suất phạm loại I (chính là mức ý nghĩa).
- $β$ — xác suất phạm loại II.
Ý nghĩa:
- Bảng 2x2: thực tế ( $H_{0}$ đúng/sai) x quyết định (bác bỏ/không) → hai ô đúng, hai ô sai. Loại I và loại II là hai ô sai.
- Đánh đổi: với cỡ mẫu cố định, hạ $α$ (5% → 1%) làm khó bác bỏ hơn → tăng $β$ (bỏ sót nhiều hơn). Không thể ép cả hai cùng nhỏ trừ khi tăng cỡ mẫu.
- Trong tài chính, loại I = tin nhầm một factor vô dụng có alpha (đốt tiền giao dịch), loại II = bỏ lỡ một factor thật sự tốt.

2.2 Mức ý nghĩa — significance level

α = P (bác bỏ H_{0} ∣ H_{0} đúng)

Biến:
- $α$ — mức ý nghĩa: ngưỡng rủi ro báo động giả ta chấp nhận, đặt trước khi chạy (thường 1%, 5%, 10%).
- $∣ H_{0} đúng$ — xác suất này tính trong giả định $H_{0}$ đúng.
Ý nghĩa:
- Bằng chính xác xác suất phạm sai lầm loại I — đặt $α = 5 %$ là chấp nhận "cứ 20 lần kiểm trên null đúng thì trung bình 1 lần báo động giả".
- Mức ý nghĩa quyết định giá trị tới hạn: $α$ càng nhỏ → ngưỡng càng xa 0 → đòi hỏi bằng chứng càng mạnh mới bác bỏ.
- Phải chốt $α$ trước khi nhìn kết quả; chọn $α$ sau cho vừa số liệu là cherry-pick.

2.3 Độ mạnh của kiểm định — power of a test

Power = 1 - β = P (bác bỏ H_{0} ∣ H_{0} sai)

Biến:
- $β$ — xác suất sai lầm loại II (bỏ sót).
- $1 - β$ — độ mạnh: xác suất bắt đúng khi thật sự có hiệu ứng.
Ý nghĩa:
- Đo khả năng "phát hiện được cái có thật" — power thấp nghĩa là dù hiệu ứng tồn tại, kiểm của ta hay bỏ lỡ.
- Tăng power chỉ có hai đường: tăng cỡ mẫu (đường sạch, không đánh đổi), hoặc nới $α$ (đường bẩn, đổi lại tăng báo động giả).
- Khi nhiều thống kê kiểm định cùng dùng được, ưu tiên cái cho power cao nhất; với anh đây là lý do "kết quả CI rộng đi qua 0" thường là vấn đề power (mẫu thiếu), không phải bằng chứng không-có-hiệu-ứng.

3. Thống kê kiểm định cho trung bình (test statistic for a mean)

Thống kê kiểm định là một con số duy nhất gói toàn bộ bằng chứng: mẫu lệch khỏi giá trị giả định bao nhiêu lần độ ồn chuẩn. Lệch càng nhiều lần độ ồn → càng khó là may rủi → càng nghiêng về bác bỏ.

3.1 Khung chung của thống kê kiểm định — test statistic

test statistic = \frac{point estimate - hypothesized value}{standard error}

Biến:
- point estimate — ước lượng điểm từ mẫu (vd trung bình mẫu $\bar{x}$ ).
- hypothesized value — giá trị giả định trong $H_{0}$ (vd $μ_{0}$ ).
- standard error — sai số chuẩn của thống kê mẫu (độ ồn của ước lượng điểm).
Ý nghĩa:
- Tử số = mẫu lệch khỏi niềm tin bao nhiêu; mẫu số = bao nhiêu lệch là "bình thường" do ngẫu nhiên → thương số = lệch tính bằng "số lần độ ồn".
- Đây đúng là z-score của thống kê mẫu: trị tuyệt đối lớn = mẫu khó tương thích với $H_{0}$ .
- Khung này dùng chung cho z-test, t-test, kiểm tương quan... chỉ khác phân phối tra giá trị tới hạn.

3.2 Sai số chuẩn của trung bình mẫu — standard error of the mean

σ_{\bar{x}} = \frac{σ}{\sqrt{n}} (σ đã biết) s_{\bar{x}} = \frac{s}{\sqrt{n}} (σ chưa biết)

Biến:
- $σ$ — độ lệch chuẩn của tổng thể (hiếm khi biết thật).
- $s$ — độ lệch chuẩn của mẫu, dùng thay khi không biết $σ$ .
- $n$ — cỡ mẫu.
Ý nghĩa:
- Trung bình của mẫu lớn ổn định hơn của mẫu nhỏ — chia cho $\sqrt{n}$ phản ánh điều đó: mẫu càng lớn, độ ồn của trung bình càng co.
- Vì sai số chuẩn ở mẫu số của thống kê kiểm định, $n$ lớn → mẫu số nhỏ → thống kê kiểm định lớn → dễ bác bỏ hơn (chính là cơ chế power tăng theo cỡ mẫu).
- Biết $σ$ thật → dùng z; chỉ ước lượng bằng $s$ → về lý thuyết dùng t (nhưng mẫu lớn thì t và z gần như trùng nhau).

3.3 t-test và z-test cho một trung bình — t-test & z-test

t = \frac{\bar{x} - μ_{0}}{s / \sqrt{n}} (d f = n - 1) z = \frac{\bar{x} - μ_{0}}{σ / \sqrt{n}}

Biến:
- $\bar{x}$ — trung bình mẫu.
- $μ_{0}$ — trung bình giả định trong $H_{0}$ .
- $s / \sqrt{n}$ , $σ / \sqrt{n}$ — sai số chuẩn (chưa biết / đã biết $σ$ ).
- $d f = n - 1$ — bậc tự do của phân phối t.
Ý nghĩa:
- Dùng t khi $σ$ chưa biết (gần như luôn luôn) — phân phối t có đuôi dày hơn chuẩn để bù cho việc ta phải ước lượng thêm $σ$ từ chính mẫu.
- Dùng z khi $σ$ đã biết, hoặc mẫu rất lớn (định lý giới hạn trung tâm cho phép xấp xỉ chuẩn) — khi $n$ lớn (vd >30, thực tế hàng trăm) t và z gần như không khác.
- Quy tắc quyết định: tính thống kê → so với giá trị tới hạn (tra t-table theo $d f$ và $α$ , hoặc z-table). Hai phía: bác bỏ nếu trị tuyệt đối vượt giá trị tới hạn; một phía: bác bỏ nếu vượt về đúng hướng của $H_{a}$ .

3.4 Hai trung bình độc lập và cặp đôi — difference in means & paired comparisons

Hai trung bình độc lập (difference in means):
- Dùng khi hai mẫu độc lập (vd lợi nhuận bất thường của hai loại thâu tóm khác nhau).
- Là t-test; nếu giả định hai phương sai bằng nhau thì gộp phương sai (pooled variance) để tính sai số chuẩn ở mẫu số.
- Trực giác: tử số = chênh lệch hai trung bình mẫu; chênh nhỏ → không bác bỏ "bằng nhau", chênh lớn → bác bỏ.
Cặp đôi phụ thuộc (paired comparisons):
- Dùng khi hai mẫu không độc lập (vd lợi nhuận hai cổ phiếu thép cùng chịu ảnh hưởng thị trường + ngành).
- Lấy hiệu từng cặp quan sát rồi kiểm xem trung bình các hiệu có khác 0 không — quy về đúng t-test một trung bình trên chuỗi hiệu, $d f = n - 1$ .
- Chọn nhầm (dùng độc lập cho dữ liệu phụ thuộc) làm sai sai số chuẩn → kết luận lệch.

LOS không bắt thuộc lòng công thức gộp phương sai; trọng tâm là biết chọn đúng loại t-test và đọc được quyết định từ giá trị tới hạn.

4. Kiểm định phương sai (tests of variance)

Ba kiểm định nhóm 3 đều hỏi về trung bình (mức trung tâm). Nhưng nhiều câu hỏi tài chính lại nằm ở độ dao động (phương sai / độ lệch chuẩn): quỹ có giữ đúng mức rủi ro đã quảng cáo không, hai ngành có biến động khác nhau không. Hai kiểm định dưới đây dùng phân phối khác — chi-square cho một phương sai, F cho tỷ số hai phương sai — nhưng vẫn theo đúng khung "tính thống kê → so giá trị tới hạn" của nhóm 3.

4.1 Chi-square cho một phương sai — chi-square test of a single variance

χ^{2} = \frac{(n - 1) s^{2}}{σ_{0}^{2}} (d f = n - 1)

Biến:
- $s^{2}$ — phương sai mẫu (tính từ dữ liệu rút ra).
- $σ_{0}^{2}$ — phương sai giả định trong $H_{0}$ (giá trị đem ra kiểm).
- $n - 1$ — bậc tự do của phân phối chi-square.
Ý nghĩa:
- Đo phương sai mẫu lệch khỏi phương sai giả định bao nhiêu, theo thang chi-square — bằng $σ_{0}^{2}$ thì tỷ số $s^{2} / σ_{0}^{2} = 1$ và thống kê đúng bằng $n - 1$ .
- Phân phối chi-square lệch phải và không âm (do bình phương), lại không đối xứng → kiểm hai phía phải tra HAI giá trị tới hạn riêng (một cận dưới, một cận trên), khác hẳn z/t đối xứng chỉ cần một số $\pm$ .
- Quy tắc quyết định: bác bỏ $H_{0}$ nếu thống kê rơi NGOÀI khoảng giữa hai giá trị tới hạn (vd hai phía 5%, $d f = 23$ : ngoài $[11.689, 38.076]$ ).
Giả thuyết: $H_{0} : σ^{2} = σ_{0}^{2}$ so với $H_{a} : σ^{2} \neq σ_{0}^{2}$ (hai phía); một phía đổi thành $>$ hoặc $<$ .

4.2 F-test cho hai phương sai — F-test of equality of two variances

F = \frac{s_{1}^{2}}{s_{2}^{2}} (s_{1}^{2} \geq s_{2}^{2}, d f = (n_{1} - 1, n_{2} - 1))

Biến:
- $s_{1}^{2}$ — phương sai mẫu LỚN hơn (luôn đặt ở tử số).
- $s_{2}^{2}$ — phương sai mẫu nhỏ hơn (mẫu số).
- $n_{1} - 1, n_{2} - 1$ — bậc tự do tử số và mẫu số (mỗi mẫu một bậc tự do riêng).
Ý nghĩa:
- Bản chất là tỷ số hai độ dao động: hai phương sai bằng nhau thì $F = 1$ ; càng lệch xa 1 càng nghi hai tổng thể có độ dao động khác nhau.
- Mẹo đặt lớn-trên-nhỏ-dưới khiến $F$ luôn $\geq 1$ → chỉ cần tra MỘT giá trị tới hạn ở đuôi phải, khỏi lo cận dưới.
- Quy tắc quyết định: bác bỏ $H_{0}$ (hai phương sai bằng nhau) nếu $F$ vượt giá trị tới hạn đuôi phải (tra bảng F theo $d f_{1}, d f_{2}$ và mức ý nghĩa chia đôi cho hai phía).
Giả thuyết: $H_{0} : σ_{1}^{2} = σ_{2}^{2}$ so với $H_{a} : σ_{1}^{2} \neq σ_{2}^{2}$ .
Ứng dụng quant: F-test so hai phương sai chính là cách kiểm "độ dao động (volatility) của một tài sản / một giai đoạn có thật sự khác giai đoạn khác không" — gốc thống kê cho mọi claim "regime đổi vol", phải qua kiểm định này trước khi tin mắt thường.

5. Quy tắc quyết định và p-value (decision rule & p-value)

Có hai cách tương đương để chốt quyết định: so thống kê với giá trị tới hạn, hoặc đọc p-value. Cả hai cùng kết luận, chỉ khác góc nhìn.

5.1 Quy tắc quyết định theo giá trị tới hạn — decision rule

Hai phía: bác bỏ H_{0} nếu | test stat | > critical value

Biến:
- test stat — thống kê kiểm định tính từ mẫu (nhóm 3).
- critical value — giá trị tới hạn tra từ bảng theo phân phối + $α$ + bậc tự do.
Ý nghĩa:
- Quy tắc phải cụ thể và định lượng: chốt một/hai phía + $α$ + phân phối → ra một ngưỡng số rõ ràng, rồi mới so.
- Hai phía 5% với z: giá trị tới hạn $\pm 1.96$ (95% xác suất nằm giữa, 2.5% mỗi đuôi). Một phía 5% với z: $1.65$ .
- Vùng bác bỏ nằm ở đuôi: rơi vào đuôi = mẫu quá khó tương thích với $H_{0}$ → bác bỏ.

5.2 Giá trị p — p-value

Định nghĩa: xác suất quan sát được một thống kê kiểm định lệch ít nhất bằng giá trị thực tế, giả định $H_{0}$ đúng. Tương đương: mức ý nghĩa nhỏ nhất mà tại đó vẫn bác bỏ được $H_{0}$ .
Quy tắc đọc:
- $p < α$ → bác bỏ $H_{0}$ (bằng chứng đủ mạnh).
- $p \geq α$ → không bác bỏ $H_{0}$ .
Ý nghĩa:
- p-value gói "bằng chứng chống $H_{0}$ mạnh tới đâu" thành một số liên tục, thay vì chỉ có/không — p càng nhỏ, dữ liệu càng khó là may rủi nếu $H_{0}$ đúng.
- Tiện hơn giá trị tới hạn vì mỗi người đọc tự so với $α$ của riêng mình; phần mềm thống kê luôn in p-value sẵn.
- Bẫy diễn giải: p-value KHÔNG phải xác suất $H_{0}$ đúng. Nó là xác suất thấy dữ liệu lệch như vậy với điều kiện $H_{0}$ đúng — hai thứ khác nhau hoàn toàn.

6. Node ghép ra chiến lược

Test statistic trên trung bình lợi nhuận → "factor có alpha không" — kiểm $H_{0} : μ_{lợi nhuận thặng dư} = 0$ chính là khung đánh giá một tín hiệu giao dịch.
F-test hai phương sai → "vol có đổi regime không" — so độ dao động hai giai đoạn (vd trước/sau một sự kiện) bằng F-test trước khi tin mắt thường thấy "thị trường biến động hơn".
Power + cỡ mẫu → tin hay không tin một kết quả âm — CI rộng đi qua 0 thường là thiếu power (mẫu ngắn), nghĩa là "chưa phát hiện được", KHÔNG phải "đã chứng minh không có".
Mức ý nghĩa + nhiều phép kiểm → multiple testing — quét N biến thể rồi chọn best làm $α$ thực dụng phình lên; phải hiệu chỉnh (Bonferroni / Deflated Sharpe) — nối thẳng tới rule anti-leakage của workspace.
p-value → tiêu chí pass pre-register — đăng ký ngưỡng p (hoặc CI) trước khi chạy là cách chống post-hoc storytelling.

7. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md (đáp án độc lập từ answer key Schweser + vài ví dụ tự dựng tự tính, là mầm test vòng 2).

8. Liên hệ bức tranh gốc

Cụm này = lớp ra quyết định thống kê mà mọi claim "có edge thật" phải đi qua:
- Một factor có alpha → kiểm $H_{0} : α = 0$ , đọc t-stat + p-value.
- Một kết quả backtest đẹp → hỏi power đủ chưa, CI có đi qua 0 không.
- Một so sánh A vs B → t-test đúng loại (độc lập hay cặp đôi).
Vai trò với anh: phần khung suy luận này anh đã quen từ ML (kiểm định ý nghĩa, p-value, lỗi loại I/II); ở đây chỉ đóng lại theo quy ước tài chính + nối thẳng vào protocol anti-leakage:
- Vì sao phải pre-register $α$ và một/hai phía trước khi nhìn data.
- Vì sao "không bác bỏ được" khác hẳn "chứng minh không có" (chuyện power).
- Vì sao quét nhiều biến thể bắt buộc hiệu chỉnh multiple testing.
Kết nối: cụm sau (kiểm định độc lập, tương quan, bảng chéo) tái dùng nguyên khung này; mọi cụm định giá/danh mục về sau khi nói "ý nghĩa thống kê" đều quay về đây.

Cụm Hypothesis Testing — Kiểm định giả thuyết ​

Đồ thị khái niệm ​

1. Dựng giả thuyết (formulating hypotheses) ​

1.1 Giả thuyết gốc và giả thuyết đối — null vs alternative hypothesis ​

1.2 Một phía và hai phía — one-tailed vs two-tailed ​

2. Hai loại sai lầm và độ mạnh (errors and power) ​

2.1 Sai lầm loại I và loại II — Type I & Type II error ​

2.2 Mức ý nghĩa — significance level ​

2.3 Độ mạnh của kiểm định — power of a test ​

3. Thống kê kiểm định cho trung bình (test statistic for a mean) ​

3.1 Khung chung của thống kê kiểm định — test statistic ​

3.2 Sai số chuẩn của trung bình mẫu — standard error of the mean ​

3.3 t-test và z-test cho một trung bình — t-test & z-test ​

3.4 Hai trung bình độc lập và cặp đôi — difference in means & paired comparisons ​

4. Kiểm định phương sai (tests of variance) ​

4.1 Chi-square cho một phương sai — chi-square test of a single variance ​

4.2 F-test cho hai phương sai — F-test of equality of two variances ​

5. Quy tắc quyết định và p-value (decision rule & p-value) ​

5.1 Quy tắc quyết định theo giá trị tới hạn — decision rule ​

5.2 Giá trị p — p-value ​

6. Node ghép ra chiến lược ​

7. Bài tập có lời giải ​

8. Liên hệ bức tranh gốc ​