Skip to content

Cụm Statistical Measures — Thước đo thống kê của lợi nhuận tài sản

Cụm này là bộ đồ nghề mô tả một chuỗi lợi nhuận qua 4 câu hỏi:

  • Nằm ở đâu? → xu hướng trung tâm (nhóm 1).
  • Dao động bao nhiêu? → độ phân tán (nhóm 3).
  • Lệch / nhọn thế nào? → hình dạng phân phối (nhóm 4).
  • Hai tài sản đi cùng nhau ra sao? → đồng biến (nhóm 5).

Đây là lớp đo rủi ro nền tảng — đầu vào trực tiếp cho Sharpe, cho phương sai danh mục, cho quản trị rủi ro đuôi ở các cụm sau.

  • Nguồn: Schweser 2025 L1 Book 1, Reading 3 (Statistical Measures of Asset Returns).
  • Vòng: đây là vòng 1 theo quy trình sinh nội dung — phần văn bản để hiểu + hình minh hoạ tĩnh. Code + test đối chiếu đáp án Schweser + lab marimo là vòng 2, làm sau.

Đồ thị khái niệm (một biến)

Đọc đồ thị:

  • Màu — node xanh đậm = dữ liệu gốc; xanh nhạt = thống kê trung gian; xanh lá = thước đo rủi ro nối thẳng ra chiến lược.
  • Hướng — gần như mọi thước đo mọc từ Mean, nên nắm trung bình trước rồi mới tới phần còn lại.

Glossary nhãn chart (viết tắt → English → tiếng Việt):

  • Observed returns — chuỗi lợi nhuận quan sát (dữ liệu gốc).
  • Mean — trung bình: tổng giá trị chia số quan sát.
  • Median — trung vị: giá trị đứng giữa khi xếp thứ tự.
  • Mode — giá trị xuất hiện nhiều lần nhất.
  • Variance — phương sai: trung bình bình phương sai lệch.
  • Std deviation — độ lệch chuẩn: căn bậc hai phương sai.
  • Coef of variation (CV) — hệ số biến thiên: rủi ro trên một đơn vị lợi nhuận.
  • Target downside dev — độ lệch xuống dưới mục tiêu: chỉ phạt phần thua.
  • Skewness — độ lệch: phân phối nghiêng về phía nào.
  • Kurtosis — độ nhọn: phân phối nhọn và đuôi nặng tới đâu.

1. Xu hướng trung tâm (central tendency)

Xu hướng trung tâm là chỉ số xác định giá trị đại diện (giá trị trung tâm) của một chuỗi — gói cả chuỗi vào một con số tiêu biểu. Chỉ trung bình có công thức; trung vị và mode là quy tắc chọn.

1.1 Trung bình mẫu — sample arithmetic mean

x¯=1ni=1nxi
  • Biến:
    • xi — lợi nhuận quan sát thứ i.
    • n — số quan sát.
    • x¯ — trung bình mẫu (đọc là "x ngang").
  • Ý nghĩa:
    • Điểm cân bằng của dữ liệu — bỏ hết giá trị vào rồi chia đều.
    • Là kỳ vọng mẫu: dự đoán tốt nhất cho lần quan sát tới nếu dữ liệu ổn định.
    • Nền của hầu hết thước đo sau — phương sai, độ lệch, hiệp phương sai đều đo sai lệch quanh nó.
  • Nhược điểm: một giá trị cực đoan (outlier) đủ sức kéo nó lệch, vì mọi quan sát đều có trọng số bằng nhau.

1.2 Trung vị và mode

Hai thước đo trung tâm ít nhạy với giá trị cực đoan hơn trung bình.

  • Trung vị (median):
    • Giá trị đứng giữa khi xếp dữ liệu theo thứ tự (số quan sát chẵn thì lấy trung bình hai giá trị giữa).
    • Không bị giá trị cực đoan kéo → khi dữ liệu có vài giá trị bất thường, trung vị mô tả giá trị trung tâm trung thực hơn trung bình.
  • Mode:
    • Giá trị xuất hiện nhiều lần nhất; dữ liệu có thể có một, nhiều, hoặc không có mode.
    • Với lợi nhuận liên tục thì xét khoảng chứa nhiều quan sát nhất.

1.3 Trung bình cắt / co

Hai cách lấy trung bình sau khi giảm ảnh hưởng của giá trị cực đoan.

  • Cắt (trimmed) — bỏ hẳn một tỷ lệ phần trăm hai đầu cực đoan rồi mới lấy trung bình (vd cắt 1% = bỏ 0.5% thấp nhất + 0.5% cao nhất).
  • Co (winsorized) — không bỏ, mà thay giá trị cực đoan bằng phân vị biên (vd thay mọi giá trị dưới phân vị 5 bằng đúng phân vị 5), rồi lấy trung bình.

2. Vị trí (quantile)

2.1 Phân vị — quantile

  • Định nghĩa: giá trị mà tại hoặc dưới nó có một tỷ lệ dữ liệu cho trước.
  • Các loại:
    • Tứ phân vị (quartile) — chia tư.
    • Ngũ phân vị (quintile) — chia năm.
    • Thập phân vị (decile) — chia mười.
    • Bách phân vị (percentile) — chia trăm.
  • Quy về percentile: mọi phân vị quy về bách phân vị được (tứ phân vị thứ ba = bách phân vị 75).

2.2 Khoảng tứ phân vị — interquartile range (IQR)

IQR=Q3Q1
  • Biến:
    • Q1 — phân vị 25 (một phần tư dữ liệu nằm dưới).
    • Q3 — phân vị 75 (ba phần tư dữ liệu nằm dưới).
  • Ý nghĩa: bề rộng của nửa giữa dữ liệu — nền của biểu đồ hộp để phát hiện giá trị cực đoan.
  • Khi nào dùng: đo độ phân tán mà không bị giá trị cực đoan kéo (khác range — range nhạy với đúng hai đầu).

Box and whisker plot

Đọc hình:

  • Hộp — khoảng tứ phân vị Q1 đến Q3 (nửa giữa dữ liệu); vạch giữa hộp = trung vị.
  • Râu — vươn tới vùng dữ liệu bình thường; chấm đỏ tách rời = giá trị cực đoan.
  • Lệch — râu một bên dài hơn hẳn = dấu hiệu dữ liệu lệch.

3. Độ phân tán (dispersion)

Chủ đề xuyên suốt tài chính: phần thưởng đo bằng giá trị trung tâm, rủi ro đo bằng độ phân tán quanh giá trị trung tâm. Sáu thước đo dưới đây xếp từ thô tới tinh.

3.1 Khoảng biến thiên — range

range=xmaxxmin
  • Ý nghĩa:
    • Biên độ dao động tối đa quan sát được — tệ nhất tới tốt nhất cách nhau bao nhiêu.
    • Cho cảm nhận rủi ro tức thì, không cần tính toán.
  • Đánh đổi: chỉ nhìn hai đầu nên một outlier làm range phình to và không tả được phần giữa.

3.2 Độ lệch tuyệt đối trung bình — mean absolute deviation (MAD)

MAD=1ni=1n|xix¯|
  • Biến: |xix¯| — khoảng cách (bỏ dấu) từ quan sát i tới giá trị trung tâm.
  • Ý nghĩa:
    • "Lệch điển hình" tính bằng đơn vị gốc — trung bình mỗi quan sát cách giá trị trung tâm bao xa.
    • Dễ hiểu hơn phương sai (không bình phương), nhưng ít dùng trong lý thuyết vì trị tuyệt đối khó đạo hàm.
  • Vì sao lấy trị tuyệt đối: tổng các sai lệch có dấu quanh trung bình luôn bằng 0 (phần trên bù phần dưới) → không bỏ dấu thì MAD luôn ra 0.

3.3 Phương sai mẫu — sample variance

s2=1n1i=1n(xix¯)2
  • Biến:
    • (xix¯)2 — sai lệch so với giá trị trung tâm, bình phương để bỏ dấu và phạt nặng sai lệch lớn.
    • n1 — mẫu số, nhỏ hơn cỡ mẫu một đơn vị.
  • Ý nghĩa:
    • Đo độ dao động tổng quanh giá trị trung tâm.
    • Bình phương nên phạt nặng cú lệch lớn → rất nhạy với biến động cực đoan.
    • Cộng được: phương sai danh mục lắp từ phương sai + hiệp phương sai từng cặp — nền lý thuyết danh mục.
  • Vì sao mẫu số là n1 chứ không phải n:
    • Chia cho n → phương sai thấp đi một cách hệ thống so với tổng thể, nhất là mẫu nhỏ.
    • Chia cho n1 → sửa thiên lệch đó (ước lượng không chệch).
  • Nhược điểm: đơn vị bị bình phương (phần trăm bình phương) → khó hình dung trực tiếp.

3.4 Độ lệch chuẩn mẫu — sample standard deviation

s=s2
  • Ý nghĩa:
    • Căn bậc hai của phương sai → đơn vị về lại như dữ liệu gốc, đọc trực tiếp.
    • Thước đo rủi ro tổng phổ biến nhất; là mẫu số của Sharpe.
    • Với phân phối chuẩn: khoảng 68% quan sát nằm trong ±1 độ lệch chuẩn, 95% trong ±2 → quy thẳng ra xác suất.

3.5 Hệ số biến thiên — coefficient of variation (CV)

CV=sx¯
  • Biến:
    • s — độ lệch chuẩn (rủi ro).
    • x¯ — trung bình (phần thưởng).
  • Ý nghĩa:
    • Rủi ro trên một đơn vị lợi nhuận — phải chịu bao nhiêu dao động để đổi lấy 1% lãi.
    • Đã bỏ đơn vị nên so sánh được hai tài sản khác hẳn mức lãi, chỗ độ lệch chuẩn trần không so được (vd bán lẻ trung bình 8% với bất động sản 16%).
    • Đọc: CV thấp hơn = hiệu quả rủi ro tốt hơn.

3.6 Độ lệch xuống dưới mục tiêu — target downside deviation

starget=xi<B(xiB)2n1
  • Biến:
    • B — mức mục tiêu ta chọn để đo rủi ro phía thua (vd lãi 0%, hoặc đúng bằng trung bình).
    • xi<B — chỉ cộng các quan sát dưới mục tiêu (bỏ qua quan sát bằng hoặc trên mục tiêu).
    • n1 — mẫu số vẫn là cỡ mẫu trừ một, dù tử số đã bỏ bớt quan sát.
  • Ý nghĩa:
    • Như độ lệch chuẩn nhưng chỉ phạt phần dưới mục tiêu → đo riêng rủi ro phía thua.
    • Khớp tâm lý nhà đầu tư: lãi vượt mức không phải rủi ro, chỉ thua mới là.
  • Khi nào dùng: thay độ lệch chuẩn khi phân phối lệch (vài cú lãi to + nhiều cú thua đều); là mẫu số của tỷ số Sortino.

4. Hình dạng phân phối (shape)

LOS chỉ yêu cầu đọc và đánh giá, không bắt tính tay; nhưng cơ chế cần nắm vì đây là chỗ rủi ro thật ẩn.

4.1 Độ lệch — skewness

Skew1ni=1n(xix¯)3s3
  • Biến:
    • (xix¯)3 — sai lệch lập phương: giữ dấu (âm/dương) và khuếch đại outlier xa.
    • s3 — độ lệch chuẩn lập phương ở mẫu số, để chuẩn hóa và bỏ đơn vị.
  • Ý nghĩa:
    • Cho biết rủi ro nằm phía nào: lệch âm = đuôi thua dài (nguy hiểm), lệch dương = đuôi lãi dài.
    • Mẫu số luôn dương → dấu của skewness = dấu của tử số: outlier phía nào nhiều hơn thì lệch về phía đó.
    • Trị tuyệt đối vượt 0.5 coi là đáng kể.

Skewness shapes

  • Lệch phải (dương):
    • Đuôi dài bên phải, outlier lớn kéo trung bình lên trên → thứ tự mode<trung vị<trung bình.
    • Ví dụ: giá nhà một khu — 99 căn 100k, một căn 1 triệu → trung vị và mode vẫn 100k nhưng trung bình bị kéo lên 109k.
  • Lệch trái (âm): đối xứng ngược lại — đuôi dài bên trái, trung bình<trung vị<mode.
  • Quy tắc nhớ: trung bình bị outlier kéo mạnh nhất nên luôn bị hút về phía đuôi dài; trung vị nằm giữa.

4.2 Độ nhọn — kurtosis

Kurt1ni=1n(xix¯)4s4excess=Kurt3
  • Biến:
    • (xix¯)4 — sai lệch lũy thừa bốn: luôn dương, khuếch đại cực mạnh các quan sát xa giá trị trung tâm → đo sức nặng của đuôi.
    • excess=Kurt3 — độ nhọn vượt chuẩn: trừ 3 vì phân phối chuẩn có kurtosis đúng bằng 3, nên chuẩn quy về mốc 0 cho dễ đọc.
  • Ý nghĩa:
    • Đo phân phối nhọn ở giữa và nặng ở đuôi tới đâu so với phân phối chuẩn.
    • Kurtosis cao = biến cố cực đoan (cả lãi lẫn lỗ) xảy ra thường hơn dự báo của phân phối chuẩn → rủi ro đuôi.
    • Risk manager quan tâm vì mô hình giả định chuẩn đánh giá thấp xác suất sụp lớn.

Kurtosis shapes

  • Nhọn hơn chuẩn (leptokurtic, excess > 0):
    • Đuôi béo — vừa nhọn ở giữa vừa nhiều cú lệch cực lớn hơn dự báo của phân phối chuẩn.
    • Đây là dạng rủi ro: biến cố cực đoan xảy ra thường hơn ta tưởng.
  • Bẹt hơn chuẩn (platykurtic, excess < 0): đuôi mỏng, ít cú cực đoan.
  • Vì sao quan trọng:
    • Lợi nhuận thực tế hiếm khi chuẩn; mô hình giả định chuẩn sẽ bỏ sót khả năng thua cực lớn.
    • Nói gọn: lệch âm nhiều + đuôi béo = rủi ro cao hơn, dù trung bình và độ lệch chuẩn trông đẹp.

5. Đồng biến (co-movement)

Glossary nhãn chart:

  • Covariance — hiệp phương sai: chiều hai tài sản đi cùng nhau (còn dính đơn vị).
  • Correlation — tương quan: hiệp phương sai đã chuẩn hóa về khoảng [1,+1].

5.1 Hiệp phương sai — sample covariance

Cov(X,Y)=1n1i=1n(xix¯)(yiy¯)
  • Biến:
    • (xix¯) — sai lệch của tài sản X so với giá trị trung tâm của nó.
    • (yiy¯) — sai lệch của tài sản Y so với giá trị trung tâm của nó.
    • Tích hai sai lệch — dương khi hai tài sản cùng lệch một phía, âm khi lệch ngược phía.
  • Ý nghĩa:
    • Hai tài sản có xu hướng đi cùng chiều (dương) hay ngược chiều (âm).
    • Là viên gạch của phương sai danh mục: hiệp phương sai âm giữa các tài sản kéo rủi ro danh mục xuống.
  • Nhược điểm: phụ thuộc đơn vị → độ lớn vô nghĩa khi so sánh (cùng một cặp tính bằng yên ra số to hơn tính bằng đô).

5.2 Tương quan — correlation

ρXY=Cov(X,Y)sXsY1ρXY+1
  • Biến:
    • Cov(X,Y) — hiệp phương sai (chiều đi cùng nhau, còn dính đơn vị).
    • sX,sY — độ lệch chuẩn từng tài sản ở mẫu số, để chuẩn hóa về [1,+1] và bỏ đơn vị.
  • Ý nghĩa:
    • Bản chất: hiệp phương sai chuẩn hóa về khoảng [1,+1] nên bỏ đơn vị.
    • So mạnh/yếu dễ hơn hẳn: 0.9 rõ ràng chặt hơn 0.3, bất kể đơn vị hay quy mô (hiệp phương sai không làm được).
    • Đầu vào lõi của rủi ro danh mục: tương quan thấp giữa các tài sản = đa dạng hóa hiệu quả, phương sai danh mục co lại.
  • Đọc các mốc:
    • ρ=+1 — đi cùng chiều hoàn hảo.
    • ρ=1 — ngược chiều hoàn hảo.
    • ρ=0 — không có quan hệ tuyến tính.
  • Cảnh báo: tương quan chỉ bắt phần tuyến tính; hai biến cong nhau (vd y=x2) vẫn có thể cho ρ gần 0 dù rõ ràng liên quan → luôn nhìn biểu đồ phân tán trước.

Correlation scatter plots

  • Trái — không quan hệ (ρ0).
  • Giữa — quan hệ tuyến tính mạnh (ρ0.96).
  • Phải — quan hệ rõ ràng (hình parabol) nhưng ρ0 vì không tuyến tính → đúng chỗ tương quan đánh lừa nếu chỉ nhìn con số.

6. Node ghép ra chiến lược

  • Độ lệch chuẩn → Sharpe(lợi nhuậnlãi phi rủi ro)/s, lợi nhuận trên một đơn vị rủi ro tổng (cụm Portfolio Part II).
  • Độ lệch xuống dưới → Sortino — Sharpe nhưng mẫu số chỉ phạt rủi ro phía thua.
  • Tương quan → đa dạng hóa — tương quan thấp giữa các tài sản làm phương sai danh mục co lại; là lõi của biên hiệu quả (cụm Portfolio Part I).
  • Skewness + kurtosis → rủi ro đuôi — đầu vào cho quản trị rủi ro khi lợi nhuận không chuẩn.

7. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md (đáp án độc lập từ answer key Schweser, đồng thời là mầm test vòng 2).


8. Liên hệ bức tranh gốc

  • Cụm này = lớp đo rủi ro nền tảng mà mọi nghiên cứu chiến lược sau đều cắm vào:
    • Một factor đo bằng IC và Sharpe.
    • Một danh mục đo bằng phương sai và tương quan.
    • Một cú sốc đuôi đo bằng skewness và kurtosis.
  • Vai trò với anh: phần thống kê này anh mạnh sẵn từ nền ML; ở đây chỉ đóng lại theo đúng ngôn ngữ và quy ước tài chính:
    • Vì sao mẫu số n1.
    • Vì sao dùng độ lệch xuống dưới thay vì độ lệch chuẩn.
    • Vì sao CV để so sánh tài sản khác mức lợi nhuận.
  • Kết nối: các cụm định giá và danh mục về sau gọi lại trực tiếp các thước đo này.