Cụm Simulation Methods — Phương pháp mô phỏng

Cụm này trả lời câu hỏi: khi không có công thức đóng để tính giá trị hay rủi ro, làm sao dựng ra cả một phân phối kết quả rồi đọc trung bình và độ phân tán từ đó. Hai cách dựng: hoặc bịa dữ liệu từ một phân phối ta giả định (Monte Carlo), hoặc rút lại nhiều lần từ chính dữ liệu lịch sử đã quan sát (bootstrap). Cụm cũng chốt một nền móng: vì sao giá tài sản hợp với phân phối log-chuẩn (lognormal) trong khi lợi nhuận thì hợp với phân phối chuẩn (normal). Nó trả lời ba câu:

Vì sao giá tài sản nên mô hình bằng log-chuẩn, còn lợi nhuận bằng chuẩn? → quan hệ normal vs lognormal (nhóm 1).
Không có công thức đóng thì định giá/đo rủi ro thế nào? → Monte Carlo (nhóm 2).
Chỉ có dữ liệu lịch sử, muốn ước lượng sai số chuẩn của thống kê thì làm sao? → bootstrap resampling (nhóm 3).
Nguồn: Schweser 2025 L1 Book 1, Reading 6 (Simulation Methods); phần bootstrap/jackknife bổ sung từ Reading 7 (Estimation and Inference, LOS 7.c).
Vòng: đây là vòng 1 theo quy trình sinh nội dung — phần văn bản để hiểu. Code + test + lab là vòng 2, làm sau.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = đầu vào gốc (lợi nhuận chuẩn; mẫu lịch sử quan sát được); xanh nhạt = các bước dựng và biến đổi; xanh lá = đích cuối (rút ra trung bình + rủi ro từ phân phối kết quả).
Hai nhánh chụm về một chỗ — Monte Carlo lấy dữ liệu từ phân phối ta tự giả định, bootstrap lấy dữ liệu từ chính mẫu lịch sử; cả hai cùng đổ vào bước "rút ngẫu nhiên nhiều lần" rồi gom thành phân phối kết quả để đọc.

Glossary nhãn chart (English → tiếng Việt):

Normal returns — lợi nhuận gộp liên tục, mô hình bằng phân phối chuẩn.
Lognormal prices — giá tài sản tương lai, mô hình bằng phân phối log-chuẩn.
IID assumption — giả định lợi nhuận độc lập và cùng phân phối qua thời gian.
Monte Carlo simulation — mô phỏng bằng dữ liệu sinh từ phân phối giả định.
Assumed distribution — phân phối ta tự đặt cho mỗi yếu tố rủi ro.
Random draws — các lần rút giá trị ngẫu nhiên cho yếu tố rủi ro.
Bootstrap resampling — rút lại nhiều lần từ mẫu lịch sử, có hoàn lại.
Observed sample — mẫu dữ liệu lịch sử đã quan sát.
Output distribution — phân phối các giá trị kết quả sau nhiều lần lặp.
Mean and risk inference — rút ra kỳ vọng và độ phân tán từ phân phối kết quả.

1. Quan hệ phân phối chuẩn và log-chuẩn

1.1 Phân phối log-chuẩn của giá — lognormal distribution

P_{T} = P_{0} e^{r_{0, T}} với r_{0, T} \sim Normal

Biến:
- $P_{0}$ — giá tài sản hiện tại.
- $P_{T}$ — giá tài sản tại thời điểm tương lai $T$ .
- $r_{0, T}$ — lợi nhuận gộp liên tục (continuously compounded return) từ $0$ tới $T$ , giả định phân phối chuẩn.
- $e$ — cơ số log tự nhiên; biến phân phối chuẩn đi qua hàm mũ $e^{x}$ thành biến log-chuẩn.
Ý nghĩa:
- Định nghĩa gọn: một biến là log-chuẩn nếu lấy log tự nhiên của nó ra biến chuẩn (vì $\ln (e^{x}) = x$ , mà $x$ là chuẩn) — tên "log-normal" đến từ đó.
- Giá hợp với log-chuẩn vì giá tương lai = giá hiện tại nhân $e$ mũ một lợi nhuận chuẩn; phân phối log-chuẩn không bao giờ âm (vì $e^{x} > 0$ với mọi $x$ ), khớp thực tế giá không xuống dưới 0.
- Log-chuẩn lệch phải (đuôi dài bên phải, không đối xứng) — khác phân phối chuẩn đối xứng quanh trung bình; đây là lý do giá cổ phiếu thường vẽ thành đường lệch phải chứ không hình chuông cân.

1.2 Vì sao lợi nhuận thì dùng chuẩn — additivity và CLT

Cơ chế: lợi nhuận gộp liên tục cộng dồn được qua thời gian — chia khoảng $0$ tới $T$ thành nhiều đoạn nhỏ thì $r_{0, T}$ là tổng các lợi nhuận từng đoạn.
Ý nghĩa:
- Nếu từng lợi nhuận đoạn nhỏ là chuẩn → tổng của chúng cũng chuẩn → $r_{0, T}$ chuẩn → $P_{T}$ log-chuẩn.
- Ngay cả khi từng đoạn không chuẩn, định lý giới hạn trung tâm (central limit theorem — tổng nhiều biến ngẫu nhiên độc lập xấp xỉ phân phối chuẩn) khiến tổng $r_{0, T}$ vẫn xấp xỉ chuẩn.
- Tóm lại: lợi nhuận cộng được nên hợp với chuẩn; giá là $e$ mũ lợi nhuận nên hợp với log-chuẩn. Đây là cặp đôi nền cho mọi mô hình định giá quyền chọn về sau.

1.3 Giả định IID — independently and identically distributed

Định nghĩa: nhiều mô hình định giá trong chương trình CFA giả định lợi nhuận độc lập và cùng phân phối (independently and identically distributed).
Ý nghĩa:
- Độc lập (independently) — lợi nhuận quá khứ không giúp dự đoán lợi nhuận tương lai; biết hôm qua tăng không cho ta lợi thế đoán hôm nay.
- Cùng phân phối (identically) — trung bình và phương sai không đổi theo thời gian; tính chất này gọi là tĩnh (stationarity), một trụ quan trọng của mô hình chuỗi thời gian (chủ đề Level II).
- Cảnh báo: đây là giả định, không phải sự thật của thị trường. Lợi nhuận thật có cụm biến động (volatility clustering) và đôi khi tự tương quan — chỗ này là nơi sai lệch giữa mô hình và thực tế sinh ra.

2. Mô phỏng Monte Carlo — Monte Carlo simulation

2.1 Cơ chế và quy trình

Định nghĩa: kỹ thuật lặp lại việc sinh giá trị ngẫu nhiên cho một hoặc nhiều yếu tố rủi ro (risk factor — biến tác động lên giá trị tài sản, ví dụ giá cổ phiếu, lãi suất) để dựng ra cả một phân phối giá trị tài sản.
Bốn bước (ví dụ định giá quyền chọn chỉ thực thi vào một ngày cố định):
- Bước 1 — chỉ rõ phân phối xác suất của từng yếu tố rủi ro (giá cổ phiếu, lãi suất) cùng tham số của nó (trung bình, phương sai, độ lệch — skewness).
- Bước 2 — máy tính sinh ngẫu nhiên giá trị cho cả giá cổ phiếu và lãi suất theo phân phối đã đặt.
- Bước 3 — đưa mỗi bộ giá trị qua mô hình định giá để tính ra một giá trị quyền chọn.
- Bước 4 — lặp rất nhiều lần (hàng trăm, hàng nghìn, hàng chục nghìn), lấy trung bình các giá trị làm ước lượng giá quyền chọn (và có thể lấy phương sai để đo độ phân tán).

2.2 Ứng dụng đầu tư

Định giá chứng khoán phức tạp — khi không có công thức đóng (closed-form) để giải trực tiếp.
Mô phỏng lãi/lỗ của một chiến lược giao dịch — chạy chiến lược qua nhiều kịch bản sinh ra.
Ước lượng giá trị chịu rủi ro (value at risk — VaR, mức lỗ tối đa ở một độ tin cậy) cho danh mục tài sản và nợ.
Mô phỏng tài sản và nợ quỹ hưu trí qua thời gian — xem chênh lệch giữa hai bên dao động ra sao.
Định giá danh mục có lợi nhuận không-chuẩn (nonnormal) — nơi công thức dựa trên giả định chuẩn không dùng được.

2.3 Ưu điểm và hạn chế

Ưu điểm: đầu vào không bị giới hạn trong khoảng dữ liệu lịch sử — phân tích viên có thể thử cả các kịch bản "what if" chưa từng xảy ra trong quá khứ.
Hạn chế:
- Khá phức tạp để dựng và chạy.
- Kết quả không tốt hơn các giả định về phân phối yếu tố rủi ro và mô hình định giá đưa vào — rác vào thì rác ra (garbage in, garbage out).
- Là phương pháp thống kê chứ không phải giải tích (analytic) — cho ra con số mô phỏng nhưng không cho cái nhìn sâu về quan hệ nhân quả mà một lời giải đóng mang lại.

3. Lấy mẫu lại bootstrap — bootstrap resampling

3.1 Cơ chế bootstrap

Định nghĩa: từ một mẫu quan sát được, rút lại nhiều lần các mẫu con cùng kích thước $n$ , mỗi lần hoàn lại (with replacement) quan sát đã rút để nó có thể được rút lại ở lần sau.
Bối cảnh: thường ta không có dữ liệu cả tổng thể (population), chỉ có một mẫu — ví dụ chuỗi lợi nhuận lịch sử của một khoản đầu tư được coi là một mẫu rút từ tổng thể mọi kết cục có thể.
Ý nghĩa:
- Bootstrap mô phỏng việc "lấy mẫu lại từ tổng thể" bằng cách coi chính mẫu lịch sử như tổng thể thu nhỏ rồi rút đi rút lại từ đó.
- Mô phỏng dùng dữ liệu bootstrap chạy cùng quy trình như Monte Carlo; khác biệt duy nhất là nguồn và phạm vi dữ liệu — đầu vào bị bó trong khoảng các kết cục đã thực sự xảy ra.

3.2 Ước lượng sai số chuẩn bằng bootstrap

\hat{S E} (\bar{x}) = StdDev ({\bar{x}}^{(1)}, {\bar{x}}^{(2)}, \dots, {\bar{x}}^{(B)})

Biến:
- ${\bar{x}}^{(b)}$ — trung bình mẫu của lần lấy mẫu lại thứ $b$ .
- $B$ — số lần lấy mẫu lại (số mẫu bootstrap).
- $\hat{S E} (\bar{x})$ — ước lượng sai số chuẩn (standard error — độ phân tán của trung bình mẫu) của trung bình mẫu.
Ý nghĩa:
- Thay vì dùng công thức giải tích $s / \sqrt{n}$ , ta tính trực tiếp độ lệch chuẩn của các trung bình mẫu rút lại làm ước lượng sai số chuẩn.
- Sức mạnh: dựng được sai số chuẩn và khoảng tin cậy cho cả những thống kê không có công thức đóng (ví dụ trung vị — median, hay các thống kê phức tạp).
- Bootstrap cải thiện độ chính xác so với chỉ dùng một mẫu đơn lẻ, và cho một bức tranh tốt về đặc tính thống kê của tổng thể.

3.3 So với jackknife — jackknife resampling

Định nghĩa jackknife: tính $n$ trung bình mẫu, mỗi lần bỏ ra đúng một quan sát khỏi mẫu; độ lệch chuẩn của các trung bình này là ước lượng sai số chuẩn.
Ý nghĩa:
- Jackknife đơn giản về tính toán, hợp khi số quan sát nhỏ, và có thể khử bớt thiên lệch (bias) khỏi ước lượng.
- Bootstrap nặng tính toán hơn (rút ngẫu nhiên nhiều lần có hoàn lại, không phải bỏ-một-quan-sát có hệ thống) nhưng linh hoạt hơn — đó là cái giá đổi lấy khả năng xử lý thống kê phức tạp.
- Điểm yếu chung của mọi mô phỏng, gồm bootstrap: chỉ cho ước lượng thống kê chứ không phải kết quả chính xác, và đầu vào bị bó bởi phân phối các kết cục thực tế.

4. Node ghép ra chiến lược

Log-chuẩn cho giá → nền mô hình định giá quyền chọn — Black-Scholes và họ hàng đều giả định giá log-chuẩn / lợi nhuận chuẩn; đây là viên gạch dưới chân chúng.
Monte Carlo → định giá phái sinh phức tạp + đo VaR — khi không có công thức đóng, mô phỏng là đường ra mặc định cho định giá và quản trị rủi ro danh mục.
Bootstrap → kiểm định độ tin cậy của backtest — chính là công cụ workspace dùng để dựng khoảng tin cậy Sharpe và kiểm tra một chiến lược có thật sự có cạnh hay chỉ may rủi (xem anti-leakage protocol: bootstrap CI không đi qua 0 mới kết luận được).
Giả định IID → cảnh báo lõi — mọi mô phỏng chỉ tốt bằng giả định của nó; lợi nhuận thật vi phạm IID (có cụm biến động) nên kết quả mô phỏng phải đọc kèm caveat, không tin tuyệt đối.

5. Bài tập có lời giải

Đề + lời giải tách riêng để concept.md gọn như formula sheet: xem bai-tap.md. Reading 6 là phần định tính (gần như không có công thức số), nên các ví dụ số ở đây đều tự dựng và tự tính minh bạch; phần câu hỏi khái niệm bám sát module quiz Schweser. Đây cũng là mầm test vòng 2 (dựng mô phỏng Monte Carlo + bootstrap CI bằng code).

6. Liên hệ bức tranh gốc

Cụm này là cây cầu từ lý thuyết xác suất sang công cụ tính toán: khi công thức đóng bó tay (chứng khoán phức tạp, thống kê không có dạng giải tích), mô phỏng dựng cả phân phối kết quả để ta đọc trung bình và rủi ro.
Bài học lõi: có hai nguồn dữ liệu cho mô phỏng — bịa từ phân phối giả định (Monte Carlo, thử được cả kịch bản chưa từng xảy ra) hoặc rút lại từ lịch sử (bootstrap, bám dữ liệu thật nhưng bị bó trong đó); chọn cái nào là đánh đổi giữa "tự do giả định" và "bám thực tế".
Kết nối strategy: bootstrap chính là xương sống của kiểm định backtest nghiêm ngặt trong workspace — dựng khoảng tin cậy cho Sharpe, kiểm tra cạnh thật hay may rủi; còn cặp normal-lognormal là nền cho mọi mô hình định giá phái sinh sẽ gặp về sau.

Cụm Simulation Methods — Phương pháp mô phỏng ​

Đồ thị khái niệm ​

1. Quan hệ phân phối chuẩn và log-chuẩn ​

1.1 Phân phối log-chuẩn của giá — lognormal distribution ​

1.2 Vì sao lợi nhuận thì dùng chuẩn — additivity và CLT ​

1.3 Giả định IID — independently and identically distributed ​

2. Mô phỏng Monte Carlo — Monte Carlo simulation ​

2.1 Cơ chế và quy trình ​

2.2 Ứng dụng đầu tư ​

2.3 Ưu điểm và hạn chế ​

3. Lấy mẫu lại bootstrap — bootstrap resampling ​

3.1 Cơ chế bootstrap ​

3.2 Ước lượng sai số chuẩn bằng bootstrap ​

3.3 So với jackknife — jackknife resampling ​

4. Node ghép ra chiến lược ​

5. Bài tập có lời giải ​

6. Liên hệ bức tranh gốc ​