Bài tập — cụm Estimation and Inference

Bài 2.1 lấy từ ví dụ Schweser 2025 L1 Reading 7 (số có thật trong text nguồn — ghi rõ Schweser answer key). Các bài còn lại tự dựng, tự tính đúng (ghi ví dụ tự dựng) vì phần ví dụ tương ứng trong Schweser nằm ở bảng-ảnh nên không trích được số. Đây cũng là mầm test cho vòng 2 (mỗi đáp án thành một assert).

Cách dùng: che phần Đáp án, tự giải theo công thức ở concept.md, rồi đối chiếu.

1. Kỹ thuật lấy mẫu

Bài 1.1 — Số trái phiếu rút từ một tầng (ví dụ tự dựng)

Đề: dựng danh mục 100 trái phiếu bám một chỉ số 1.000 trái phiếu bằng lấy mẫu phân tầng. Một tầng (kỳ hạn 2-4 năm, coupon dưới 5%) chứa 50 trái phiếu. Rút bao nhiêu trái phiếu từ tầng này?
Cách làm:
- Số rút = (cỡ tầng / tổng thể) × cỡ danh mục.
- $= (50 / 1000) \times 100$ .
Đáp án: $5$ trái phiếu — phân tầng đảm bảo tầng nào cũng có mặt theo đúng tỷ trọng, khác lấy mẫu ngẫu nhiên đơn giản (có thể rút 0 hoặc nhiều hơn 5 từ tầng này).

Bài 1.2 — Nhận diện kiểu lấy mẫu (ví dụ tự dựng)

Đề: nhà nghiên cứu chỉ chọn các công ty mà kinh nghiệm mách có dấu hiệu gian lận, soi riêng vài chỉ số tài chính của chúng. Đây là kiểu lấy mẫu nào, rủi ro chính là gì?
Cách làm: đối chiếu định nghĩa — chọn theo kinh nghiệm người nghiên cứu = phán đoán (judgmental), thuộc họ phi xác suất.
Đáp án: lấy mẫu phán đoán (judgmental sampling); rủi ro chính là thiên kiến của người chọn làm sai lệch lấy mẫu lớn.

2. Định lý giới hạn trung tâm và sai số chuẩn

Bài 2.1 — Sai số chuẩn của trung bình mẫu, cỡ mẫu 30 và 200 (Schweser answer key)

Đề: mẫu 30 lợi nhuận tháng của McCreary, Inc. có trung bình $2 %$ và độ lệch chuẩn mẫu $20 %$ . Tính sai số chuẩn của trung bình mẫu. Sau đó lặp lại với mẫu cỡ $200$ (vẫn giả định trung bình $2 %$ , độ lệch chuẩn $20 %$ ).
Cách làm:
- Phương sai tổng thể chưa biết → dùng $s_{\bar{x}} = s / \sqrt{n}$ .
- $n = 30$ : $20 / \sqrt{30}$ .
- $n = 200$ : $20 / \sqrt{200}$ .
Đáp án:
- $n = 30 \to 3.6 %$ (chính xác $3.65 %$ ).
- $n = 200 \to 1.4 %$ (chính xác $1.41 %$ ).
- Đọc kết quả: tăng mẫu từ 30 lên 200, sai số chuẩn giảm $3.6 % \to 1.4 %$ — trung bình mẫu bám sát trung bình thật hơn khi mẫu to ra (nhưng theo căn của $n$ , không tuyến tính).

Bài 2.2 — Mẫu cần lớn cỡ nào để CLT áp dụng (ví dụ tự dựng)

Đề: lợi nhuận một tổng thể phân phối lệch mạnh (không chuẩn). Cần mẫu tối thiểu bao nhiêu để coi phân phối trung bình mẫu là xấp xỉ chuẩn, và vì sao?
Cách làm: áp định lý giới hạn trung tâm — quy ước "đủ lớn" là $n \geq 30$ .
Đáp án: $n \geq 30$ . Khi đó dù tổng thể lệch, trung bình mẫu vẫn xấp xỉ chuẩn với tâm $μ$ và phương sai $σ^{2} / n$ → dùng được bảng z để suy diễn.

2b. Khoảng tin cậy

Bài 2.3 — Khoảng tin cậy 95% cho trung bình (ví dụ tự dựng)

Đề: mẫu 100 lợi nhuận có trung bình $8 %$ và độ lệch chuẩn mẫu $15 %$ . Dựng khoảng tin cậy 95% cho trung bình thật ( $z_{0.025} = 1.96$ ).
Cách làm:
- Sai số chuẩn: $s_{\bar{x}} = s / \sqrt{n} = 15 / \sqrt{100} = 1.5 %$ .
- Khoảng: $\bar{x} \pm z \cdot s_{\bar{x}} = 8 \pm 1.96 \times 1.5$ .
- Biên sai số: $1.96 \times 1.5 = 2.94 %$ .
Đáp án: $[5.06 %, 10.94 %]$ . Khoảng KHÔNG chứa 0 → trung bình thật khác 0 ở mức tin cậy 95%; nếu đây là alpha thì kết luận "có edge" được (đối lập với khoảng đi qua 0 = chưa phân biệt với may rủi).

3. Lấy mẫu lại

Bài 3.1 — Phân biệt jackknife và bootstrap (ví dụ tự dựng)

Đề: cần ước lượng sai số chuẩn của trung vị (không có công thức giải tích) trên một tập dữ liệu lớn. Chọn jackknife hay bootstrap, vì sao?
Cách làm: đối chiếu hai kỹ thuật — jackknife bỏ lần lượt một quan sát ( $n$ lần), bootstrap rút lại có hoàn lại rất nhiều lần.
Đáp án: bootstrap. Nó dựng được khoảng tin cậy cho thống kê phức tạp không có công thức (như trung vị), chính xác hơn dù nặng tính toán hơn; jackknife nhẹ hơn nhưng hợp khi số quan sát ít và chủ yếu để gỡ thiên lệch.

Bài 3.2 — Hạn chế của bootstrap trên dữ liệu lịch sử (ví dụ tự dựng)

Đề: bootstrap lợi nhuận lịch sử để mô phỏng phân phối kết cục danh mục. Hạn chế cốt lõi là gì?
Cách làm: nhớ "kết quả chỉ tốt ngang giả định đầu vào" — bootstrap rút lại từ chính dữ liệu đã có.
Đáp án: đầu vào bị bó trong dải các kết cục ĐÃ từng xảy ra trong lịch sử — không sinh ra được tình huống "what-if" ngoài dữ liệu (đây là chỗ mô phỏng Monte Carlo làm được mà bootstrap không).

Bài tập — cụm Estimation and Inference ​

1. Kỹ thuật lấy mẫu ​

Bài 1.1 — Số trái phiếu rút từ một tầng (ví dụ tự dựng) ​

Bài 1.2 — Nhận diện kiểu lấy mẫu (ví dụ tự dựng) ​

2. Định lý giới hạn trung tâm và sai số chuẩn ​

Bài 2.1 — Sai số chuẩn của trung bình mẫu, cỡ mẫu 30 và 200 (Schweser answer key) ​

Bài 2.2 — Mẫu cần lớn cỡ nào để CLT áp dụng (ví dụ tự dựng) ​

2b. Khoảng tin cậy ​

Bài 2.3 — Khoảng tin cậy 95% cho trung bình (ví dụ tự dựng) ​

3. Lấy mẫu lại ​

Bài 3.1 — Phân biệt jackknife và bootstrap (ví dụ tự dựng) ​

Bài 3.2 — Hạn chế của bootstrap trên dữ liệu lịch sử (ví dụ tự dựng) ​