Bài tập — cụm Big Data Techniques

Cụm này là cụm mô tả khái niệm, nên bài tập là câu hỏi định tính (chọn/phân biệt khái niệm + giải thích), không phải bài tính số. Hai bài đầu lấy nguyên văn Module Quiz 11.1 của Schweser (có answer key thật); các bài còn lại tự dựng để kiểm tra việc phân biệt khái niệm — đáp án bám sát định nghĩa trong concept.md.

Cách dùng: che phần Đáp án, tự trả lời theo concept.md, rồi đối chiếu.

1. Fintech

Bài 1.1 — Fintech là gì (Schweser answer key, Module Quiz 11.1)

Đề: Fintech được mô tả chính xác nhất là:
- A. việc áp dụng công nghệ vào ngành dịch vụ tài chính.
- B. việc thay tiền do chính phủ phát hành bằng tiền điện tử.
- C. việc thanh toán và quyết toán giao dịch chứng khoán qua sổ cái phân tán.
Cách làm: quay về định nghĩa gốc — fintech là cái tên ô dù cho mọi công nghệ áp vào tài chính, không bó hẹp ở một sản phẩm cụ thể.
Đáp án: A. Fintech là việc áp dụng công nghệ vào ngành dịch vụ tài chính và vào các công ty phát triển, ứng dụng công nghệ cho dịch vụ tài chính. Tiền điện tử (đáp án B) và sổ cái phân tán (đáp án C) chỉ là ví dụ của các phát triển liên quan fintech, không phải định nghĩa của nó.

2. Dữ liệu lớn

Bài 2.1 — Công nghệ nào hữu ích để phân tích dữ liệu lớn (Schweser answer key, Module Quiz 11.1)

Đề: Phát triển công nghệ nào dưới đây có khả năng hữu ích nhất cho việc phân tích dữ liệu lớn?
- A. Học máy (machine learning).
- B. Thu thập độ trễ cao (high-latency capture).
- C. Internet vạn vật (Internet of Things).
Cách làm: tách rõ hai vai — vai sinh ra/thu dữ liệu khác vai phân tích dữ liệu.
Đáp án: A. Học máy là kỹ thuật lập trình hữu ích để nhận diện và mô hình hóa mẫu trong khối lượng dữ liệu lớn — tức khâu phân tích. Internet vạn vật (C) chỉ là một nguồn sinh dữ liệu lớn. "Thu thập" (capture) là một khâu xử lý; còn độ trễ (latency) chỉ độ trễ giữa lúc dữ liệu được sinh ra và lúc cần dùng — không phải công cụ phân tích.

Bài 2.2 — Phân loại nguồn dữ liệu thay thế (ví dụ tự dựng)

Đề: Xếp mỗi nguồn sau vào đúng nhóm dữ liệu thay thế (cá nhân / doanh nghiệp / cảm biến): (a) đánh giá nhà hàng trên app; (b) dữ liệu máy quét bán lẻ tại quầy thu ngân; (c) chip RFID trong tòa nhà thông minh.
Cách làm: đối chiếu ba nhóm nguồn phi truyền thống trong concept.md mục 2.1.
Đáp án:
- (a) cá nhân — đánh giá trực tuyến do người dùng sinh ra.
- (b) doanh nghiệp — dữ liệu máy quét bán lẻ thuộc corporate exhaust (sản phẩm phụ của hoạt động kinh doanh).
- (c) cảm biến — chip RFID là một mắt của Internet vạn vật.

Bài 2.3 — Cấu trúc dữ liệu và độ trễ (ví dụ tự dựng)

Đề: Đúng/Sai cho từng câu, giải thích: (a) Một file video là dữ liệu có cấu trúc. (b) Luồng giá cổ phiếu thời gian thực là dữ liệu độ trễ thấp. (c) Mã trang web (HTML) là dữ liệu bán cấu trúc.
Cách làm: dùng định nghĩa ba mức cấu trúc (mục 2.3) và định nghĩa độ trễ (mục 2.2).
Đáp án:
- (a) Sai — video là dữ liệu không cấu trúc (không có khuôn hàng-cột để máy đọc thẳng).
- (b) Đúng — dữ liệu thời gian thực như luồng giá được gọi là độ trễ thấp (low latency).
- (c) Đúng — mã trang web là ví dụ điển hình của dữ liệu bán cấu trúc.

3. Khoa học dữ liệu, AI và học máy

Bài 3.1 — Phân biệt khâu xử lý dữ liệu (ví dụ tự dựng)

Đề: Gọi tên khâu xử lý dữ liệu (trong năm khâu của data science) cho mỗi việc: (a) loại bỏ và vá các giá trị thiếu trong tập dữ liệu; (b) gom dữ liệu từ cảm biến rồi đưa về dạng dùng được; (c) chuyển dữ liệu từ kho lưu trữ tới máy chủ phân tích.
Cách làm: đối chiếu năm khâu — Capture, Curation, Storage, Search, Transfer (mục 3.1).
Đáp án:
- (a) Làm sạch (curation) — bảo đảm chất lượng bằng cách xử lý dữ liệu xấu/thiếu.
- (b) Thu thập (capture) — gom dữ liệu và biến thành dạng dùng được.
- (c) Truyền tải (transfer) — chuyển dữ liệu từ kho tới nơi cần dùng.

Bài 3.2 — Học giám sát hay không giám sát (ví dụ tự dựng)

Đề: Mỗi bài toán sau dùng học giám sát hay không giám sát: (a) dự báo lợi nhuận cổ phiếu tháng tới từ các factor đã có nhãn lợi nhuận thực; (b) gom 500 cổ phiếu thành các cụm hành vi giá tương tự nhau mà không có nhãn trước.
Cách làm: mấu chốt là dữ liệu có nhãn đầu ra hay không (mục 3.5).
Đáp án:
- (a) Học giám sát — có cả đầu vào (factor) và đầu ra (lợi nhuận thực) được gắn nhãn, máy học mô hình hóa đầu ra từ đầu vào.
- (b) Học không giám sát — không có nhãn, máy chỉ học cách mô tả cấu trúc dữ liệu (gom cụm).

Bài 3.3 — Quá khớp hay dưới khớp (ví dụ tự dựng)

Đề: Một mô hình học máy đạt độ chính xác gần như hoàn hảo trên tập huấn luyện nhưng dự báo rất tệ trên tập kiểm tra. Đây là lỗi gì, và cơ chế của nó là gì?
Cách làm: so hai định nghĩa quá khớp / dưới khớp (mục 3.6).
Đáp án: Quá khớp (overfitting). Máy học dữ liệu vào-ra quá khít trên tập huấn luyện, coi nhiễu là tham số thật và nhận ra các mẫu giả — mô hình quá phức tạp nên không tổng quát hóa được ra dữ liệu mới. (Ngược lại, dưới khớp là khi mô hình quá đơn giản, tệ ngay cả trên tập huấn luyện.)

Bài 3.4 — AI, mạng nơ-ron, học máy, học sâu (ví dụ tự dựng)

Đề: Sắp bốn khái niệm sau theo quan hệ "là một dạng của": trí tuệ nhân tạo, học máy, học sâu, mạng nơ-ron. Khái niệm nào rộng nhất?
Cách làm: dựa vào cách concept.md trình bày — AI là gốc, học máy là một bước phát triển của AI, học sâu dùng nhiều lớp mạng nơ-ron.
Đáp án: Trí tuệ nhân tạo rộng nhất (hệ máy mô phỏng nhận thức người). Mạng nơ-ron là một ví dụ của AI. Học máy là một phát triển quan trọng của AI (thuật toán tự học mô hình từ dữ liệu). Học sâu là kỹ thuật dùng nhiều lớp mạng nơ-ron để nhận diện mẫu, có thể giám sát hoặc không giám sát.

4. Ứng dụng vào đầu tư

Bài 4.1 — Ghép ứng dụng đúng tên (ví dụ tự dựng)

Đề: Gọi tên đúng mảng ứng dụng fintech (trong bốn mảng LOS 11.c) cho mỗi mô tả: (a) đọc khối lượng lớn báo cáo nghiên cứu để bắt thay đổi tinh tế trong tâm lý; (b) chia một lệnh mua lớn ra nhiều sàn để khớp tối ưu; (c) chạy mô phỏng và phân tích kịch bản phục vụ kiểm tra sức chịu đựng theo yêu cầu của cơ quan quản lý.
Cách làm: đối chiếu bốn mảng — text analytics, NLP, risk governance, algorithmic trading (nhóm 4).
Đáp án:
- (a) Xử lý ngôn ngữ tự nhiên (NLP) — dùng máy/AI diễn giải ngôn ngữ con người để bắt sentiment.
- (b) Giao dịch theo thuật toán (algorithmic trading) — chia lệnh lớn ra nhiều sàn để khớp tốt nhất.
- (c) Quản trị rủi ro (risk governance) — mô phỏng + kịch bản + stress testing theo yêu cầu quản lý.

Bài 4.2 — Phân tích văn bản so với xử lý ngôn ngữ tự nhiên (ví dụ tự dựng)

Đề: Phân biệt phân tích văn bản (text analytics) và xử lý ngôn ngữ tự nhiên (NLP) theo cách CFA định nghĩa. Cho một ví dụ tài chính cho mỗi cái.
Cách làm: so hai định nghĩa ở mục 4.1 và 4.2.
Đáp án:
- Phân tích văn bản — phân tích dữ liệu không cấu trúc dạng văn bản/giọng nói, ví dụ đếm tần suất từ và cụm từ. Ví dụ tài chính: tự động hóa một phần việc đánh giá hồ sơ pháp lý doanh nghiệp nộp.
- Xử lý ngôn ngữ tự nhiên — dùng máy/AI để diễn giải ngôn ngữ con người (nhận dạng giọng nói, dịch). Ví dụ tài chính: kiểm tra tuân thủ trong thư từ nhân viên, hoặc đọc báo cáo nghiên cứu để bắt thay đổi tâm lý tinh tế. NLP đi sâu vào hiểu nghĩa, còn text analytics có thể dừng ở mức thống kê tần suất.

Bài tập — cụm Big Data Techniques ​

1. Fintech ​

Bài 1.1 — Fintech là gì (Schweser answer key, Module Quiz 11.1) ​

2. Dữ liệu lớn ​

Bài 2.1 — Công nghệ nào hữu ích để phân tích dữ liệu lớn (Schweser answer key, Module Quiz 11.1) ​

Bài 2.2 — Phân loại nguồn dữ liệu thay thế (ví dụ tự dựng) ​

Bài 2.3 — Cấu trúc dữ liệu và độ trễ (ví dụ tự dựng) ​

3. Khoa học dữ liệu, AI và học máy ​

Bài 3.1 — Phân biệt khâu xử lý dữ liệu (ví dụ tự dựng) ​

Bài 3.2 — Học giám sát hay không giám sát (ví dụ tự dựng) ​

Bài 3.3 — Quá khớp hay dưới khớp (ví dụ tự dựng) ​

Bài 3.4 — AI, mạng nơ-ron, học máy, học sâu (ví dụ tự dựng) ​

4. Ứng dụng vào đầu tư ​

Bài 4.1 — Ghép ứng dụng đúng tên (ví dụ tự dựng) ​

Bài 4.2 — Phân tích văn bản so với xử lý ngôn ngữ tự nhiên (ví dụ tự dựng) ​