Cụm Tests of Independence — Kiểm định tính độc lập giữa hai biến

Cụm này là bộ ba kiểm định trả lời một câu hỏi duy nhất: hai biến có thật sự liên quan với nhau, hay con số liên quan đo được chỉ là may rủi của mẫu? Đo được tương quan $0.35$ trên 42 quan sát chưa đủ — phải kiểm định xem mẫu nhỏ đó có đủ sức bác bỏ giả thuyết "thật ra không liên quan".

Khi nào hai biến số đo bằng tương quan thường có liên quan thật? → kiểm định t trên hệ số tương quan (nhóm 1).
Khi dữ liệu chỉ là thứ hạng (xếp loại 1–2–3), không phải số đo, thì đo liên quan thế nào? → tương quan hạng Spearman (nhóm 2).
Khi hai biến là phân loại (nhóm A/B/C, không phải số), thì kiểm định độc lập thế nào? → chi-square trên bảng chéo (nhóm 3).

Đây là lớp kiểm định giả thuyết áp riêng cho quan hệ giữa hai biến — nối thẳng từ cụm tương quan (đo độ liên quan) sang cụm hồi quy (mô hình hóa quan hệ đó).

Nguồn: Schweser 2025 L1 Book 1, Reading 9 (Parametric and Non-Parametric Tests of Independence).
Vòng: vòng 1 — văn bản để hiểu. Code + test đối chiếu đáp án + lab là vòng 2.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = câu hỏi gốc và việc chọn loại kiểm định; xanh nhạt = ba nhánh kiểm định theo loại dữ liệu; xanh lá = phân phối dùng để tra giá trị tới hạn.
Hướng — chọn kiểm định nào quyết định bởi loại dữ liệu, không phải bởi câu hỏi. Cùng một câu "hai biến có liên quan không" nhưng số đo, thứ hạng, hay phân loại thì đi ba nhánh khác nhau.
Điểm gộp — kiểm định t và Spearman cùng quy về phân phối t; chỉ chi-square dùng phân phối riêng.

Glossary nhãn chart (English → tiếng Việt):

Are two variables related — hai biến có liên quan thật không (câu hỏi gốc của cả cụm).
What kind of data — dữ liệu thuộc loại nào (quyết định chọn kiểm định).
Interval ratio numbers — số đo thực (lợi nhuận, giá) có khoảng cách và tỷ lệ có nghĩa.
Ordinal ranks — thứ hạng xếp loại (1, 2, 3…) chỉ có thứ tự, không có khoảng cách đều.
Categorical groups — biến phân loại (thấp/vừa/cao), chỉ là nhãn nhóm.
t-test on correlation r — kiểm định t trên hệ số tương quan mẫu.
Spearman rank correlation — tương quan hạng Spearman (kiểm định phi tham số).
Chi-square contingency table — kiểm định chi-square trên bảng chéo.
t-distribution n minus 2 df — phân phối t với $n - 2$ bậc tự do.
Chi-square distribution — phân phối chi-square với $(r - 1) (c - 1)$ bậc tự do.

1. Kiểm định tham số trên tương quan (parametric test on correlation)

Kiểm định tham số (parametric) là kiểm định có giả định về dạng phân phối của tổng thể — ở đây giả định hai biến phân phối chuẩn. Câu hỏi: tương quan mẫu $r$ khác 0, vậy tương quan thật của tổng thể ( $ρ$ ) có khác 0 không, hay $r$ chỉ là nhiễu của mẫu?

1.1 Thống kê kiểm định t trên hệ số tương quan — t-test on correlation coefficient

t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^{2}}}

Biến:
- $r$ — hệ số tương quan mẫu (Pearson, đo quan hệ tuyến tính giữa hai biến).
- $n$ — số quan sát (số cặp dữ liệu).
- $n - 2$ — bậc tự do (degrees of freedom): số mẩu thông tin tự do còn lại, mất 2 vì tương quan ràng buộc hai trung bình.
Ý nghĩa:
- Biến tín hiệu thô (tương quan $r$ ) thành thước đo "tín hiệu trên nhiễu": tử số lớn khi $r$ mạnh, mẫu số nhỏ khi $r$ gần $\pm 1$ → $t$ phình to.
- Cùng một $r$ nhưng mẫu càng lớn ( $n$ tăng) thì $t$ càng lớn — nhiều quan sát cùng hướng thì khó là may rủi hơn, nên dễ bác bỏ "không liên quan" hơn.
- So $t$ tính được với giá trị tới hạn tra từ bảng t ở $n - 2$ bậc tự do: lớn hơn → bác bỏ giả thuyết $ρ = 0$ → kết luận hai biến thật sự liên quan.
Giả thuyết: $H_{0} : ρ = 0$ (không liên quan tuyến tính) so với $H_{a} : ρ \neq 0$ — kiểm định hai phía.
Cảnh báo: bác bỏ $H_{0}$ chỉ nói "có liên quan tuyến tính", KHÔNG nói biến nào gây ra biến nào (correlation không phải causation), và bỏ sót quan hệ phi tuyến (vd hình parabol cho $r \approx 0$ dù rõ ràng liên quan).

2. Kiểm định phi tham số trên thứ hạng (non-parametric test on ranks)

Kiểm định phi tham số (non-parametric) là kiểm định không cần giả định phân phối tổng thể, hoặc không đo trên một tham số cụ thể. Dùng khi: dữ liệu vốn là thứ hạng (ordinal), hoặc khi giả định phân phối chuẩn của kiểm định t không thỏa.

2.1 Tương quan hạng Spearman — Spearman rank correlation

r_{s} = 1 - \frac{6 \sum_{i = 1}^{n} d_{i}^{2}}{n (n^{2} - 1)}

Biến:
- $d_{i}$ — chênh lệch thứ hạng của cặp thứ $i$ (hạng theo biến X trừ hạng theo biến Y).
- $\sum d_{i}^{2}$ — tổng bình phương các chênh lệch hạng (bình phương để bỏ dấu và phạt nặng cặp lệch hạng xa).
- $n$ — số cặp quan sát (số kỳ).
Ý nghĩa:
- Đo độ liên quan dựa trên thứ tự chứ không phải giá trị: hai bảng xếp hạng có đi cùng nhau không, bất kể khoảng cách giữa các hạng.
- Nếu hai biến xếp hạng y hệt nhau thì mọi $d_{i} = 0$ → $r_{s} = 1$ ; xếp hạng ngược hẳn thì $\sum d_{i}^{2}$ cực đại → $r_{s} = - 1$ ; như tương quan thường nhưng tính trên hạng.
- Bền với giá trị cực đoan và với quan hệ phi tuyến đơn điệu (chỉ cần "X tăng thì Y tăng", không cần tuyến tính) — vì chỉ nhìn thứ hạng nên một outlier khổng lồ cũng chỉ là "hạng cao nhất".
Xử lý hạng bằng nhau (tie): hai giá trị bằng nhau thì chia đều hạng — vd đồng hạng 2 và 3 thì mỗi bên nhận $(2 + 3) / 2 = 2.5$ .
Kiểm định ý nghĩa: khi $n > 30$ , dùng đúng thống kê t ở mục 1.1 (thay $r$ bằng $r_{s}$ ), theo phân phối t với $n - 2$ bậc tự do.

3. Kiểm định độc lập trên bảng chéo (test of independence on contingency table)

Khi cả hai biến là phân loại (categorical — nhãn nhóm như thấp/vừa/cao, không phải số), không tính được tương quan. Thay vào đó đếm số quan sát rơi vào từng tổ hợp nhóm, rồi kiểm định xem hai cách phân loại có độc lập với nhau không.

3.1 Bảng chéo — contingency table

Định nghĩa: bảng hai chiều đếm số quan sát ứng với mỗi tổ hợp của hai đặc tính phân loại.
- Vd hàng = mức tăng trưởng lợi nhuận (thấp/vừa/cao), cột = mức cổ tức (thấp/vừa/cao) → 9 ô.
- Ô $(i, j)$ chứa số doanh nghiệp có đồng thời đặc tính hàng $i$ và đặc tính cột $j$ .
Ý nghĩa: là dữ liệu thô cho kiểm định độc lập — so số thực tế quan sát trong mỗi ô với số kỳ vọng nếu hai đặc tính độc lập.

3.2 Tần suất kỳ vọng nếu độc lập — expected frequency

E_{i j} = \frac{(tổng hàng i) \times (tổng cột j)}{n}

Biến:
- $tổng hàng i$ — tổng số quan sát của cả hàng $i$ (lề hàng).
- $tổng cột j$ — tổng số quan sát của cả cột $j$ (lề cột).
- $n$ — tổng số quan sát toàn bảng.
Ý nghĩa:
- Tính xem nếu hai đặc tính thật sự độc lập thì mỗi ô đáng ra chứa bao nhiêu quan sát — đây là cái mốc "không liên quan" để đối chiếu.
- Logic xác suất: nếu độc lập thì xác suất rơi vào ô $(i, j)$ = (tỷ lệ hàng $i$ ) × (tỷ lệ cột $j$ ); nhân với $n$ ra số kỳ vọng.
- Ô thực tế lệch xa kỳ vọng = dấu hiệu hai đặc tính KHÔNG độc lập (biết hàng thì đoán được cột).

3.3 Thống kê kiểm định chi-square — chi-square test of independence

χ^{2} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \frac{(O_{i j} - E_{i j})^{2}}{E_{i j}}

Biến:
- $O_{i j}$ — số quan sát thực tế trong ô $(i, j)$ .
- $E_{i j}$ — số quan sát kỳ vọng nếu hai đặc tính độc lập (mục 3.2).
- $r, c$ — số hàng, số cột của bảng; bậc tự do là $(r - 1) (c - 1)$ .
Ý nghĩa:
- Gộp toàn bộ độ lệch giữa thực tế và kỳ vọng thành một con số: mỗi ô đóng góp phần lệch bình phương, chia cho kỳ vọng để chuẩn hóa theo cỡ ô.
- Chia cho $E_{i j}$ nên một độ lệch tuyệt đối giống nhau ở ô nhỏ (kỳ vọng thấp) bị phạt nặng hơn ở ô lớn — lệch 10 trên kỳ vọng 5 nghiêm trọng hơn lệch 10 trên kỳ vọng 500.
- So $χ^{2}$ tính được với giá trị tới hạn tra ở $(r - 1) (c - 1)$ bậc tự do: lớn hơn → bác bỏ giả thuyết độc lập → hai đặc tính có liên quan.
Giả thuyết: $H_{0}$ = hai đặc tính độc lập, so với $H_{a}$ = không độc lập (có liên quan).
Đặc điểm phân phối: chi-square chỉ nhận giá trị không âm (do bình phương) và lệch phải → kiểm định luôn một phía bên phải.

4. Node ghép ra chiến lược

t-test trên tương quan → lọc factor — một factor cho tương quan $0.3$ với lợi nhuận tương lai trên mẫu nhỏ: kiểm định t cho biết edge đó là thật hay nhiễu trước khi đưa vào mô hình.
Spearman → factor xếp hạng — nhiều factor trong quant là tín hiệu xếp hạng (rank cổ phiếu theo momentum); Spearman đo độ ổn định thứ hạng qua các kỳ mà không bị outlier kéo, gần với IC (information coefficient) thực dùng.
Chi-square → biến phân loại — kiểm tra một quy tắc phân loại (vd nhóm ngành × nhóm hiệu suất) có liên quan thật không, tránh nhầm một bảng đẹp ngẫu nhiên thành tín hiệu.
Toàn cụm → cổng anti-leakage — mọi quan hệ đo được phải qua kiểm định ý nghĩa + cảnh báo correlation-không-phải-causation trước khi tin, đúng tinh thần chống bias của workspace.

5. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md. Bài kiểm định t lấy số từ ví dụ Schweser; bài Spearman và chi-square là ví dụ tự dựng, tự tính đúng (mầm test vòng 2).

6. Liên hệ bức tranh gốc

Cụm này = lớp kiểm định quan hệ nằm giữa hai cụm:
- Cụm trước (Statistical Measures) đo tương quan và hiệp phương sai — ra một con số.
- Cụm này kiểm định con số đó có ý nghĩa không, theo từng loại dữ liệu (số / hạng / phân loại).
- Cụm sau (Simple Linear Regression) mô hình hóa quan hệ đã được xác nhận thành phương trình dự báo.
Vai trò với anh: ba kiểm định này anh quen sẵn từ nền thống kê ML (chi-square test, rank correlation); ở đây chỉ đóng lại theo đúng ngôn ngữ CFA:
- Vì sao bậc tự do là $n - 2$ cho tương quan và $(r - 1) (c - 1)$ cho bảng chéo.
- Khi nào buộc dùng phi tham số (dữ liệu là hạng, hoặc không chuẩn).
- Vì sao bác bỏ $H_{0}$ chỉ nói "có liên quan", không nói "gây ra".
Kết nối: Spearman là cầu trực tiếp sang khái niệm IC trong nghiên cứu factor; chi-square là công cụ kiểm tra quan hệ giữa các biến phân loại trong domain modeling.

Cụm Tests of Independence — Kiểm định tính độc lập giữa hai biến ​

Đồ thị khái niệm ​

1. Kiểm định tham số trên tương quan (parametric test on correlation) ​

1.1 Thống kê kiểm định t trên hệ số tương quan — t-test on correlation coefficient ​

2. Kiểm định phi tham số trên thứ hạng (non-parametric test on ranks) ​

2.1 Tương quan hạng Spearman — Spearman rank correlation ​

3. Kiểm định độc lập trên bảng chéo (test of independence on contingency table) ​

3.1 Bảng chéo — contingency table ​

3.2 Tần suất kỳ vọng nếu độc lập — expected frequency ​

3.3 Thống kê kiểm định chi-square — chi-square test of independence ​

4. Node ghép ra chiến lược ​

5. Bài tập có lời giải ​

6. Liên hệ bức tranh gốc ​