Cụm Simple Linear Regression — Hồi quy tuyến tính đơn

Cụm này là bộ máy vẽ một đường thẳng tốt nhất qua đám mây điểm để giải thích biến Y bằng một biến X duy nhất, rồi đo xem đường đó giải thích được bao nhiêu và đáng tin tới đâu. Nó trả lời bốn câu hỏi:

Đường thẳng nào khớp nhất? → ước lượng bình phương nhỏ nhất OLS (nhóm 1).
Dùng đường này có hợp lệ không? → các giả định (nhóm 2).
Đường giải thích được bao nhiêu phần Y? → phân rã SST/SSR/SSE, $R^{2}$ , SEE, ANOVA (nhóm 3).
Độ dốc có thật hay là may rủi? Dự báo nằm trong khoảng nào? → kiểm định độ dốc + khoảng dự báo (nhóm 4-5).

Đây là cây cầu đầu tiên từ thống kê mô tả sang mô hình quan hệ — nền của beta (độ bám thị trường), của factor model, của mọi dự báo có một biến giải thích.

Nguồn: Schweser 2025 L1 Book 1, Reading 10 (Simple Linear Regression).
Vòng: vòng 1 — văn bản để hiểu + ví dụ tính tay. Code + test đối chiếu + lab là vòng 2.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = dữ liệu gốc (cặp X-Y); xanh nhạt = đại lượng tính trung gian (đường khớp + phân rã tổng bình phương); xanh lá = kết quả nối thẳng ra quyết định (đo độ khớp, kiểm định, dự báo).
Hướng — từ dữ liệu khớp ra đường OLS, đường này vừa cho hệ số (độ dốc + chặn) vừa cho phân rã tổng bình phương; phân rã đó đẻ ra mọi thước đo độ khớp và mọi kiểm định.

Glossary nhãn chart:

Paired X and Y data — dữ liệu từng cặp (mỗi quan sát có một giá trị X và một giá trị Y đi kèm).
OLS line of best fit — đường khớp bình phương nhỏ nhất: đường thẳng làm nhỏ nhất tổng bình phương sai số dọc.
Slope b1 — độ dốc: Y đổi bao nhiêu khi X tăng một đơn vị.
Intercept b0 — hệ số chặn: giá trị Y khi X bằng 0.
SST total variation — tổng biến thiên của Y quanh trung bình của nó.
SSR explained — phần biến thiên Y mà X giải thích được.
SSE unexplained — phần biến thiên Y còn sót lại, mô hình không giải thích nổi.
R-squared — hệ số xác định: tỷ lệ phần trăm biến thiên Y được X giải thích.
SEE — sai số chuẩn của ước lượng: độ lệch chuẩn của phần dư (sai số điển hình của dự báo).
F-test and t-test — kiểm định độ dốc có khác 0 một cách có ý nghĩa hay không.
Predicted Y and interval — giá trị Y dự báo + khoảng tin cho dự báo đó.

1. Đường khớp bình phương nhỏ nhất (OLS)

Hồi quy tuyến tính đơn dùng một biến độc lập X (biến giải thích) để giải thích biến thiên của biến phụ thuộc Y (biến được giải thích). "Bình phương nhỏ nhất" (ordinary least squares, OLS) nghĩa là chọn đường thẳng làm tổng bình phương khoảng cách dọc từ điểm tới đường nhỏ nhất.

1.1 Mô hình tổng thể — population regression model

Y_{i} = b_{0} + b_{1} X_{i} + ε_{i}

Biến:
- $Y_{i}$ — biến phụ thuộc (cái ta muốn giải thích), quan sát thứ $i$ .
- $X_{i}$ — biến độc lập (cái dùng để giải thích), quan sát thứ $i$ .
- $b_{0}$ — hệ số chặn thật của tổng thể (giá trị kỳ vọng của Y khi X bằng 0).
- $b_{1}$ — độ dốc thật của tổng thể (Y đổi bao nhiêu cho mỗi đơn vị X tăng).
- $ε_{i}$ — phần dư (residual): phần của Y mà X không giải thích được.
Ý nghĩa:
- Đây là giả định về cơ chế sinh dữ liệu — Y bằng một phần tuyến tính theo X cộng một phần ngẫu nhiên.
- Ta không biết $b_{0}, b_{1}$ thật; hồi quy chỉ ước lượng chúng từ mẫu (ký hiệu mũ ${\hat{b}}_{0}, {\hat{b}}_{1}$ ).
- Mọi giả định của mô hình (nhóm 2) đều áp lên phần dư $ε$ , vì đó là chỗ "thứ ta không kiểm soát" nằm.

1.2 Tiêu chí bình phương nhỏ nhất — least squares criterion

min SSE = \sum_{i = 1}^{n} {(Y_{i} - {\hat{Y}}_{i})}^{2}

Biến:
- $Y_{i}$ — giá trị Y thực tế quan sát thứ $i$ .
- ${\hat{Y}}_{i}$ — giá trị Y mà đường khớp dự báo cho quan sát đó (đọc là "Y mũ").
- $Y_{i} - {\hat{Y}}_{i}$ — phần dư: khoảng cách dọc từ điểm thực tới đường.
Ý nghĩa:
- OLS chọn đường làm nhỏ nhất tổng bình phương sai số dọc, không phải khoảng cách vuông góc — vì ta đang giải thích Y theo X, sai số đo theo trục Y.
- Bình phương sai số nên phạt nặng cú lệch lớn → một outlier đủ sức kéo cả đường khớp về phía nó.
- Đây là lý do hồi quy tuyến tính đơn còn gọi là OLS regression.

1.3 Độ dốc ước lượng — estimated slope coefficient

{\hat{b}}_{1} = \frac{Cov (X, Y)}{Var (X)} = \frac{\sum_{i = 1}^{n} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sum_{i = 1}^{n} {(X_{i} - \bar{X})}^{2}}

Biến:
- $Cov (X, Y)$ — hiệp phương sai giữa X và Y (chiều hai biến đi cùng nhau).
- $Var (X)$ — phương sai của X (X tự dao động bao nhiêu).
- $\bar{X}, \bar{Y}$ — trung bình mẫu của X và Y.
Ý nghĩa:
- Bản chất là tín hiệu đồng biến chia cho mức dao động của X — X và Y đi cùng nhau mạnh bao nhiêu, chuẩn hóa theo độ trải của X.
- Đọc trực tiếp: độ dốc 0.64 nghĩa là khi X tăng 1 đơn vị, mô hình dự báo Y tăng 0.64 đơn vị (dấu cho biết cùng chiều hay ngược chiều).
- Ứng dụng tài chính lõi: hồi quy lợi nhuận vượt trội của một cổ phiếu lên lợi nhuận vượt trội của thị trường thì độ dốc chính là beta (độ bám thị trường, thước đo rủi ro hệ thống). Beta > 1 = nhạy hơn thị trường, beta < 1 = ít nhạy hơn.

1.4 Hệ số chặn ước lượng — estimated intercept

{\hat{b}}_{0} = \bar{Y} - {\hat{b}}_{1} \bar{X}

Biến:
- $\bar{Y}$ — trung bình mẫu của biến phụ thuộc.
- $\bar{X}$ — trung bình mẫu của biến độc lập.
- ${\hat{b}}_{1}$ — độ dốc đã ước lượng ở 1.3.
Ý nghĩa:
- Là giá trị Y dự báo khi X bằng 0 — chỗ đường khớp cắt trục dọc.
- Công thức này lộ ra một tính chất: đường khớp luôn đi qua điểm trung bình $(\bar{X}, \bar{Y})$ — tâm của đám mây dữ liệu.
- Cảnh báo: độ lớn của độ dốc một mình không nói gì về quan hệ mạnh hay yếu — phải kiểm định ý nghĩa thống kê (nhóm 4) mới biết X có thật sự giải thích Y không.

2. Giả định của mô hình (assumptions)

Hầu hết giả định áp lên phần dư $ε$ . Cách kiểm tra thực dụng là vẽ phần dư (residual plot) và soi xem có vi phạm không. LOS yêu cầu mô tả giả định + đọc residual plot, không bắt tính.

2.1 Bốn giả định cốt lõi

Tuyến tính (linearity): quan hệ giữa X và Y thật sự là đường thẳng. Vi phạm = residual plot có mẫu cong (dương ở X thấp, âm ở giữa, dương ở X cao) thay vì rải đều quanh 0.
Phương sai phần dư không đổi (homoskedasticity): sai số dao động đều như nhau ở mọi mức X. Vi phạm = heteroskedasticity, residual plot loe ra hình phễu (sai số to dần khi X to dần, hoặc đổi theo thời gian).
Phần dư độc lập (independence): sai số của quan sát này không dính tới sai số quan sát khác. Vi phạm điển hình = mùa vụ (vd sai số luôn âm to vào tháng 12 mỗi năm) → residual plot lặp theo chu kỳ.
Phần dư phân phối chuẩn (normality): sai số tuân phân phối chuẩn, để kiểm định giả thuyết hợp lệ. Mẫu lớn thì nhờ định lý giới hạn trung tâm, ước lượng vẫn có thể dùng được dù phần dư hơi lệch chuẩn.

2.2 Outlier và residual plot

Outlier — quan sát nằm rất xa đường khớp (phần dư rất lớn) hoặc có X xa hẳn phần còn lại. Vì OLS bình phương sai số, một outlier đủ kéo cả đường lệch đi và làm khớp tệ với các điểm còn lại.
Residual plot — vẽ phần dư theo X (hoặc theo thời gian). Phần dư rải ngẫu nhiên quanh 0, không mẫu, không loe phễu = giả định ổn. Có mẫu = nghi vi phạm.

3. Phân rã biến thiên + đo độ khớp (ANOVA)

Phân tích phương sai (analysis of variance, ANOVA) tách tổng biến thiên của Y thành phần X giải thích được và phần còn sót. Đây là trái tim số học của cụm — mọi thước đo độ khớp đều rút ra từ ba tổng bình phương dưới đây.

Đọc đồ thị: tổng biến thiên SST (xanh đậm) tách làm hai nhánh — phần giải thích SSR và phần sót SSE; từ hai phần đó ráp ra ba thước đo xanh lá: tỷ lệ giải thích ( $R^{2}$ ), sai số điển hình (SEE), và kiểm định nhóm (F).

Glossary nhãn chart:

SST total variation in Y — tổng biến thiên của Y quanh trung bình.
SSR explained by X — phần biến thiên do X giải thích.
SSE unexplained residual — phần biến thiên còn sót, mô hình không giải thích.
R-squared — tỷ lệ SSR trên SST.
SEE — sai số chuẩn của ước lượng (độ lệch chuẩn phần dư).
F-stat — thống kê F so phần giải thích với phần sót.

3.1 Phân rã tổng bình phương — sum of squares decomposition

SST = SSR + SSE

\underset{SST}{\underset{⏟}{\sum (Y_{i} - \bar{Y})^{2}}} = \underset{SSR}{\underset{⏟}{\sum ({\hat{Y}}_{i} - \bar{Y})^{2}}} + \underset{SSE}{\underset{⏟}{\sum (Y_{i} - {\hat{Y}}_{i})^{2}}}

Biến:
- $Y_{i} - \bar{Y}$ — sai lệch giá trị thực so với trung bình Y (thành phần của SST = total sum of squares, tổng biến thiên).
- ${\hat{Y}}_{i} - \bar{Y}$ — sai lệch giá trị dự báo so với trung bình Y (thành phần của SSR = sum of squares regression, phần giải thích).
- $Y_{i} - {\hat{Y}}_{i}$ — phần dư, sai lệch thực so với dự báo (thành phần của SSE = sum of squared errors, phần sót).
Ý nghĩa:
- Một quan sát lệch khỏi trung bình Y bao nhiêu thì chia làm hai cục: phần đường khớp kéo theo được (giải thích) và phần trượt khỏi đường (sót).
- Đây là đẳng thức chính xác, không xấp xỉ: cộng đúng SSR + SSE luôn bằng SST.
- Mọi thước đo độ khớp đều là một tỷ lệ giữa các cục này — nắm phân rã là nắm cả nhóm.

3.2 Hệ số xác định — coefficient of determination (R-squared)

R^{2} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

Biến:
- $SSR$ — phần biến thiên Y được X giải thích.
- $SST$ — tổng biến thiên Y.
Ý nghĩa:
- $R^{2}$ (hệ số xác định) = phần phương sai Y được X giải thích, đọc theo phần trăm: $R^{2} = 0.63$ nghĩa là X giải thích được 63% biến thiên của Y, còn lại 37% là phần sót.
- Nằm trong $[0, 1]$ — càng gần 1 càng khớp tốt; gần 0 = X gần như không giải thích được gì.
- Mẹo riêng của hồi quy đơn: vì chỉ một biến X, $R^{2}$ đúng bằng bình phương hệ số tương quan $r$ giữa X và Y ( $R^{2} = r^{2}$ ). (Tương quan 0.40 thì $R^{2}$ chỉ 0.16 — quan hệ nghe có vẻ có mà giải thích được rất ít.)

3.3 Sai số chuẩn của ước lượng — standard error of estimate (SEE)

SEE = \sqrt{\frac{SSE}{n - 2}} = \sqrt{MSE}

Biến:
- $SSE$ — tổng bình phương phần dư.
- $n - 2$ — bậc tự do của hồi quy đơn (mất 2 bậc vì ước lượng 2 hệ số: chặn + dốc).
- $MSE$ — sai số bình phương trung bình (mean squared error) = $SSE / (n - 2)$ .
Ý nghĩa:
- Bản chất là độ lệch chuẩn của phần dư — sai số điển hình giữa giá trị thực và đường khớp, đo bằng đúng đơn vị của Y.
- SEE càng nhỏ = các điểm bám sát đường = mô hình khớp tốt (ngược chiều với $R^{2}$ : $R^{2}$ cao thì SEE thấp).
- Dùng trực tiếp ở nhóm 4-5: SEE vào mẫu số của thống kê t cho độ dốc và vào khoảng tin cho dự báo.

3.4 Bảng ANOVA — ANOVA table

Bảng ANOVA gói gọn phân rã trên thành nguồn dữ liệu cho mọi kiểm định. Với hồi quy đơn ( $k = 1$ biến độc lập):

Nguồn	Tổng bình phương	Bậc tự do	Trung bình bình phương
Hồi quy (X giải thích)	SSR	1	MSR = SSR / 1
Sai số (phần sót)	SSE	n - 2	MSE = SSE / (n - 2)
Tổng	SST	n - 1	—

MSR (mean square regression, trung bình bình phương hồi quy) = SSR chia số biến độc lập; hồi quy đơn chỉ 1 biến nên MSR = SSR.
MSE (mean squared error) = SSE chia bậc tự do $n - 2$ .
Bảng này là bàn đạp: $F = MSR / MSE$ , $SEE = \sqrt{MSE}$ , $R^{2} = SSR / SST$ đều đọc thẳng từ đây.

4. Kiểm định độ dốc (significance of slope)

Độ lớn của độ dốc không nói lên quan hệ mạnh hay yếu; phải kiểm định xem độ dốc có khác 0 một cách có ý nghĩa thống kê không. Khác 0 = X thật sự giải thích Y; bằng 0 = X vô dụng.

4.1 Thống kê t cho độ dốc — t-test of slope

t = \frac{{\hat{b}}_{1} - b_{1, H_{0}}}{s_{{\hat{b}}_{1}}} df = n - 2

Biến:
- ${\hat{b}}_{1}$ — độ dốc ước lượng từ mẫu.
- $b_{1, H_{0}}$ — giá trị độ dốc theo giả thuyết gốc (thường là 0, tức "X không giải thích Y").
- $s_{{\hat{b}}_{1}}$ — sai số chuẩn của độ dốc (độ bấp bênh của ước lượng độ dốc).
- $n - 2$ — bậc tự do.
Ý nghĩa:
- Đo độ dốc ước lượng cách giá trị giả thuyết bao nhiêu lần sai số chuẩn — kiểu z-score cho hệ số.
- Quy tắc quyết định: $| t | > t_{tới hạn}$ thì bác bỏ giả thuyết gốc → kết luận độ dốc khác 0 có ý nghĩa → X có quan hệ tuyến tính đáng kể với Y.
- Để kiểm "X có giải thích Y không" thì đặt $b_{1, H_{0}} = 0$ , hai phía: $H_{0} : b_{1} = 0$ vs $H_{a} : b_{1} \neq 0$ .

4.2 Thống kê F — F-test

F = \frac{MSR}{MSE} df = (1, n - 2)

Biến:
- $MSR$ — trung bình bình phương hồi quy (phần giải thích trên mỗi biến).
- $MSE$ — trung bình bình phương sai số (phần sót trên mỗi bậc tự do).
Ý nghĩa:
- Bản chất là tỷ số tín hiệu trên nhiễu: phần X giải thích được so với phần còn sót. F lớn = giải thích lấn át phần sót → mô hình có giá trị.
- Quy tắc: $F > F_{tới hạn}$ (tra bảng F một phía) thì bác giả thuyết gốc.
- Mấu chốt hồi quy đơn: chỉ một biến nên F-test và t-test cho độ dốc kết luận y hệt nhau — quan hệ là $F = t^{2}$ (hay $t = \sqrt{F}$ ). Ở nhiều biến (Level II) thì F mới khác t.

5. Dự báo + khoảng tin cho dự báo (prediction)

5.1 Giá trị dự báo — predicted value

{\hat{Y}}_{p} = {\hat{b}}_{0} + {\hat{b}}_{1} X_{p}

Biến:
- $X_{p}$ — giá trị biến độc lập ta giả định cho tương lai (vd dự báo lợi nhuận thị trường).
- ${\hat{b}}_{0}, {\hat{b}}_{1}$ — hệ số chặn + độ dốc đã ước lượng.
- ${\hat{Y}}_{p}$ — giá trị Y dự báo tương ứng.
Ý nghĩa:
- Chỉ là cắm giá trị X giả định vào phương trình đường khớp rồi tính ra Y — phần "dùng mô hình".
- Cảnh báo ngoại suy: dự báo ở vùng X xa hẳn dữ liệu đã quan sát thì kém tin cậy (quan hệ tuyến tính có thể không còn đúng ngoài vùng đó).

5.2 Khoảng dự báo — prediction interval

{\hat{Y}}_{p} \pm t_{c} \cdot s_{f} df = n - 2

Biến:
- ${\hat{Y}}_{p}$ — giá trị Y dự báo điểm (từ 5.1).
- $t_{c}$ — giá trị t tới hạn ở mức tin cậy chọn (vd 95%), bậc tự do $n - 2$ .
- $s_{f}$ — sai số chuẩn của dự báo (standard error of the forecast): độ bấp bênh tổng của một dự báo cụ thể.
Ý nghĩa:
- Cho dải mà Y thật khả năng rơi vào, không chỉ một con số điểm — phản ánh dự báo luôn có sai số.
- $s_{f}$ lớn hơn SEE vì gộp thêm độ bấp bênh của chính việc ước lượng hệ số, và nó phình to khi $X_{p}$ càng xa $\bar{X}$ — dự báo ở rìa dữ liệu thì khoảng càng rộng (Level I thường cho sẵn $s_{f}$ , ít bắt tính).
- Bậc tự do dùng cho khoảng này là $n - 2$ (giống kiểm định hệ số), không phải $n$ .

5.3 Các dạng hàm khác — functional forms

Khi quan hệ X-Y không thẳng, biến đổi bằng logarit tự nhiên để nắn về tuyến tính, rồi mới hồi quy.

Log-lin — Y lấy log, X giữ nguyên. Độ dốc đọc là: thay đổi tương đối (phần trăm) của Y cho mỗi thay đổi tuyệt đối một đơn vị của X. Hợp với chuỗi tăng trưởng đều kiểu EPS tăng 10%/năm.
Lin-log — Y giữ nguyên, X lấy log. Độ dốc: thay đổi tuyệt đối của Y cho mỗi thay đổi tương đối của X.
Log-log — cả hai lấy log. Độ dốc: thay đổi tương đối của Y cho mỗi thay đổi tương đối của X (chính là độ co giãn, elasticity).
Chọn dạng nào — so các thước đo độ khớp ( $R^{2}$ , SEE, F-stat) giữa các dạng, dạng nào khớp nhất thì chọn.

6. Node ghép ra chiến lược

Độ dốc → beta — hồi quy lợi nhuận vượt trội cổ phiếu lên lợi nhuận vượt trội thị trường thì độ dốc chính là beta (rủi ro hệ thống); nền của CAPM và mọi mô hình định giá tài sản (cụm Portfolio Management).
$R^{2}$ + SEE → chất lượng tín hiệu — một factor hồi quy lên lợi nhuận tương lai thì $R^{2}$ đo nó giải thích được bao nhiêu, SEE đo sai số dự báo điển hình; thấp cả hai = tín hiệu yếu.
Kiểm định độ dốc → factor có thật không — t-test/F-test trên độ dốc chính là cách lọc factor thật khỏi factor may rủi (anchor sang anti-leakage: độ dốc đẹp mà t không qua ngưỡng = chưa chứng minh được edge).
Khoảng dự báo → quản trị rủi ro dự báo — không bao giờ tin một con số dự báo điểm trần; dải khoảng cho biết biên độ sai có thể.

7. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md (trộn ví dụ answer key Schweser + ví dụ tự dựng có ghi rõ nguồn, đồng thời là mầm test vòng 2).

8. Liên hệ bức tranh gốc

Cụm này = cây cầu từ thống kê mô tả sang mô hình quan hệ:
- Cụm Statistical Measures dạy đo một biến (trung bình, độ lệch chuẩn) và đo cặp biến đi cùng nhau (hiệp phương sai, tương quan).
- Cụm này lấy đúng hiệp phương sai + phương sai đó ráp thành một đường dự báo — bước từ "mô tả quan hệ" sang "dùng quan hệ để dự báo".
Vai trò với anh: phần hồi quy này anh mạnh sẵn từ nền ML; ở đây chỉ đóng lại theo đúng ngôn ngữ tài chính:
- Vì sao độ dốc của hồi quy lợi nhuận = beta.
- Vì sao bậc tự do là $n - 2$ (mất 2 vì ước lượng chặn + dốc).
- Vì sao $R^{2} = r^{2}$ chỉ đúng ở hồi quy đơn.
Kết nối: Level II mở rộng sang hồi quy nhiều biến (multiple regression), nơi F-test và t-test tách vai trò; cụm này là nền tối thiểu phải chắc trước.

Cụm Simple Linear Regression — Hồi quy tuyến tính đơn ​

Đồ thị khái niệm ​

1. Đường khớp bình phương nhỏ nhất (OLS) ​

1.1 Mô hình tổng thể — population regression model ​

1.2 Tiêu chí bình phương nhỏ nhất — least squares criterion ​

1.3 Độ dốc ước lượng — estimated slope coefficient ​

1.4 Hệ số chặn ước lượng — estimated intercept ​

2. Giả định của mô hình (assumptions) ​

2.1 Bốn giả định cốt lõi ​

2.2 Outlier và residual plot ​

3. Phân rã biến thiên + đo độ khớp (ANOVA) ​

3.1 Phân rã tổng bình phương — sum of squares decomposition ​

3.2 Hệ số xác định — coefficient of determination (R-squared) ​

3.3 Sai số chuẩn của ước lượng — standard error of estimate (SEE) ​

3.4 Bảng ANOVA — ANOVA table ​

4. Kiểm định độ dốc (significance of slope) ​

4.1 Thống kê t cho độ dốc — t-test of slope ​

4.2 Thống kê F — F-test ​

5. Dự báo + khoảng tin cho dự báo (prediction) ​

5.1 Giá trị dự báo — predicted value ​

5.2 Khoảng dự báo — prediction interval ​

5.3 Các dạng hàm khác — functional forms ​

6. Node ghép ra chiến lược ​

7. Bài tập có lời giải ​

8. Liên hệ bức tranh gốc ​