Cụm Big Data Techniques — Nhập môn kỹ thuật dữ liệu lớn

Cụm này là bản đồ từ vựng cho cả ngành dữ liệu trong tài chính: công nghệ tài chính (fintech) sinh ra dữ liệu, dữ liệu lớn (Big Data) là nguyên liệu, khoa học dữ liệu (data science) và học máy (machine learning) là cách chế biến, rồi ứng dụng thẳng vào quản lý đầu tư. Đây là cụm mô tả khái niệm (📖), gần như không có công thức số — trọng tâm là hiểu đúng từng thuật ngữ và quan hệ giữa chúng.

Bốn câu hỏi cụm trả lời:

Fintech là gì và nó liên quan thế nào tới việc thu thập + phân tích dữ liệu tài chính? → nhóm 1.
Dữ liệu lớn gồm những nguồn nào, đặc trưng ra sao? → nhóm 2.
Khoa học dữ liệu + AI + học máy xử lý dữ liệu đó bằng các bước gì? → nhóm 3.
Ứng dụng vào đầu tư cụ thể là những mảng nào? → nhóm 4.

Đây là lớp nền khái niệm — không phải lớp tính toán; nó định khung từ vựng cho mọi cụm định lượng và chiến lược về sau.

Nguồn: Schweser 2025 L1 Book 1, Reading 11 (Introduction to Big Data Techniques).
Vòng: vòng 1 — văn bản để hiểu. Cụm này thuần mô tả nên không có vòng 2 code/test như các cụm toán.

Đồ thị khái niệm

Đọc đồ thị:

Màu — node xanh đậm = công nghệ gốc sinh ra mọi thứ (fintech); xanh nhạt = các khái niệm trung gian (dữ liệu, nguồn, xử lý, AI/ML); xanh lá = đầu ra ứng dụng vào đầu tư.
Hướng — mạch một chiều: fintech sinh dữ liệu lớn, dữ liệu lớn cần khoa học dữ liệu chế biến, trong đó AI và học máy là công cụ mạnh nhất, cuối cùng đổ ra ứng dụng đầu tư.

Glossary nhãn chart (English → tiếng Việt giải nghĩa):

Fintech — công nghệ tài chính: các tiến bộ công nghệ áp dụng vào ngành dịch vụ tài chính.
Big Data — dữ liệu lớn: toàn bộ thông tin có ích sinh ra trong nền kinh tế, gồm cả nguồn truyền thống và phi truyền thống.
Data sources — các nguồn dữ liệu (cá nhân, doanh nghiệp, cảm biến).
Volume velocity variety — khối lượng, tốc độ, đa dạng: ba đặc trưng của dữ liệu lớn.
Data science — khoa học dữ liệu: cách trích xuất thông tin từ dữ liệu lớn.
Processing steps — các bước xử lý dữ liệu (thu thập, làm sạch, lưu trữ, tìm kiếm, truyền tải).
Artificial intelligence — trí tuệ nhân tạo: hệ máy tính mô phỏng nhận thức của con người.
Machine learning — học máy: thuật toán tự học mô hình hóa dữ liệu mà không cần lập trình tay từng quy tắc.
Investment applications — ứng dụng vào quản lý đầu tư.

1. Công nghệ tài chính (fintech)

1.1 Fintech là gì — fintech

Fintech (ghép từ financial technology) là các tiến bộ công nghệ có thể áp dụng vào ngành dịch vụ tài chính.

Định nghĩa:
- Chỉ những phát triển công nghệ dùng được cho lĩnh vực tài chính.
- Công ty làm nghề phát triển công nghệ cho ngành tài chính gọi là công ty fintech.
Hai mảng fintech liên quan trực tiếp tới dữ liệu (đúng phạm vi LOS 11.a):
- Tăng khả năng xử lý các tập dữ liệu lớn đến từ nhiều nguồn và tồn tại dưới nhiều dạng khác nhau.
- Công cụ và kỹ thuật phân tích tập dữ liệu rất lớn, ví dụ trí tuệ nhân tạo.
Góc nhìn cho dev ML: đây chỉ là cái tên ô dù cho "công nghệ áp vào tài chính" — tiền điện tử và sổ cái phân tán cũng được CFA xếp là ví dụ của fintech, không chỉ riêng AI/data.

2. Dữ liệu lớn (Big Data)

2.1 Định nghĩa và nguồn — Big Data and its sources

Dữ liệu lớn là toàn bộ thông tin có khả năng hữu ích sinh ra trong nền kinh tế — gồm cả nguồn truyền thống lẫn phi truyền thống.

Nguồn truyền thống:
- Thị trường tài chính (giá, khối lượng).
- Báo cáo tài chính doanh nghiệp.
- Thống kê kinh tế của chính phủ.
Nguồn phi truyền thống — dữ liệu thay thế (alternative data):
- Cá nhân sinh ra — bài đăng mạng xã hội, đánh giá trực tuyến, email, lượt truy cập website.
- Doanh nghiệp sinh ra — hồ sơ ngân hàng, dữ liệu máy quét bán lẻ; nhóm này gọi là corporate exhaust (dữ liệu "khí thải" doanh nghiệp — sản phẩm phụ của hoạt động kinh doanh).
- Cảm biến sinh ra — chip nhận dạng tần số vô tuyến (RFID) gắn trong điện thoại thông minh, tòa nhà thông minh; mạng lưới rộng các thiết bị này gọi là Internet vạn vật (Internet of Things, IoT).
Ý nghĩa cho đầu tư: dữ liệu thay thế là chỗ tìm tín hiệu mới mà số đông chưa khai thác — đúng tinh thần đi tìm edge ngoài dữ liệu giá thuần.

2.2 Ba đặc trưng — volume, velocity, variety

Dữ liệu lớn được mô tả qua ba chữ V.

Khối lượng (volume):
- Lượng dữ liệu tăng theo cấp số nhân.
- Đơn vị đo nhảy từ megabyte, gigabyte lên terabyte (1.000 gigabyte) và petabyte (1.000 terabyte).
Tốc độ (velocity):
- Dữ liệu được truyền nhanh tới đâu.
- Dữ liệu thời gian thực như luồng giá thị trường được gọi là độ trễ thấp (low latency); dữ liệu chỉ cập nhật định kỳ hoặc có độ trễ gọi là độ trễ cao (high latency).
Đa dạng (variety): mức độ cấu trúc khác nhau của dữ liệu, trải từ có cấu trúc tới không cấu trúc (xem 2.3).

2.3 Cấu trúc dữ liệu — structured vs unstructured

Phân loại theo mức độ có khuôn dạng, từ dễ xử lý nhất tới khó nhất.

Có cấu trúc (structured):
- Dữ liệu xếp gọn theo hàng-cột, máy đọc thẳng được.
- Ví dụ: bảng tính, cơ sở dữ liệu.
Bán cấu trúc (semistructured):
- Có một phần khuôn dạng nhưng không phải bảng đầy đủ.
- Ví dụ: ảnh chụp (kèm thẻ mô tả), mã trang web.
Không cấu trúc (unstructured):
- Không có khuôn dạng sẵn để máy đọc thẳng.
- Ví dụ: video.
- Đây là phần khó nhất, cần AI/học máy mới khai thác được (xem nhóm 3).

3. Khoa học dữ liệu, AI và học máy

Khoa học dữ liệu (data science) là lĩnh vực bàn về cách trích xuất thông tin từ dữ liệu lớn — gồm các phương pháp xử lý và trực quan hóa dữ liệu.

3.1 Năm bước xử lý dữ liệu — data processing steps

Glossary nhãn chart:

Capture — thu thập: gom dữ liệu và biến nó thành dạng dùng được.
Curation — làm sạch: bảo đảm chất lượng bằng cách xử lý dữ liệu xấu hoặc thiếu.
Storage — lưu trữ: lưu và truy cập dữ liệu.
Search — tìm kiếm: rà dữ liệu đã lưu để lấy thông tin cần.
Transfer — truyền tải: chuyển dữ liệu từ nguồn hoặc kho tới nơi cần dùng.
Lưu ý: đây là năm khâu CFA liệt kê đúng tên — không phải pipeline kỹ thuật theo chuẩn riêng nào; học để nhận diện tên gọi trong đề thi.

3.2 Trực quan hóa — visualization

Cách biến dữ liệu thành hình để con người đọc.

Dữ liệu có cấu trúc: biểu đồ và đồ thị quen thuộc.
Dữ liệu ít cấu trúc: cần phương pháp khác.
- Đám mây từ (word cloud) — minh họa tần suất xuất hiện của từ trong một mẫu văn bản.
- Sơ đồ tư duy (mind map) — hiển thị quan hệ logic giữa các khái niệm.

3.3 Thách thức của dữ liệu lớn — Big Data challenges

Trước khi dùng được, dữ liệu lớn vướng nhiều vấn đề chất lượng.

Chất lượng dữ liệu: phải tính tới giá trị cực đoan (outlier), dữ liệu xấu hoặc thiếu, và thiên lệch chọn mẫu (sampling bias).
Đủ lượng và đúng loại: khối lượng thu được phải đủ và phù hợp với mục đích sử dụng.
Khâu xử lý đặc biệt khó với dữ liệu định tính, không cấu trúc — chính đây là chỗ AI phát huy.

3.4 Trí tuệ nhân tạo — artificial intelligence

Trí tuệ nhân tạo (AI) là hệ máy tính được lập trình để mô phỏng nhận thức của con người.

Bản chất: máy làm những việc vốn cần "suy nghĩ" của người — nhận dạng, suy luận, ra quyết định.
Mạng nơ-ron (neural network): một ví dụ của AI — được lập trình để xử lý thông tin theo cách giống bộ não người.
Vai trò: AI hữu ích đúng ở khâu xử lý và tổ chức dữ liệu định tính, không cấu trúc — phần mà phương pháp truyền thống bó tay.

3.5 Học máy — machine learning

Học máy (machine learning, ML) là một bước phát triển quan trọng của AI.

Cơ chế:
- Thuật toán nhận dữ liệu nguồn đầu vào, không cần giả định gì về phân phối xác suất của chúng, và có thể được cho thêm dữ liệu mục tiêu đầu ra.
- Thuật toán tự học — không cần người trợ giúp — cách mô hình hóa đầu ra từ đầu vào, hoặc cách phát hiện và nhận diện mẫu trong đầu vào.
Đòi hỏi: thường cần lượng dữ liệu rất lớn.

Ba tập dữ liệu — train / validation / test

Quy trình điển hình của học máy chia dữ liệu làm ba phần.

Tập huấn luyện (training dataset): thuật toán tìm các quan hệ trong đây.
Tập kiểm định (validation dataset): dùng để tinh chỉnh các mô hình quan hệ vừa tìm.
Tập kiểm tra (test dataset): áp mô hình lên đây để đánh giá khả năng dự báo.

Góc nhìn cho anh: đây đúng là train/valid/test anh dùng hằng ngày. Điểm đáng để ý: CFA dừng ở mức mô tả, không nói tới rò rỉ dữ liệu (leakage) hay walk-forward — đúng tinh thần anti-leakage của workspace là phải đi xa hơn mức "biết tên ba tập".

Học giám sát, không giám sát, học sâu

Học giám sát (supervised learning):
- Cả đầu vào và đầu ra đều được gắn nhãn.
- Máy học cách mô hình hóa đầu ra từ đầu vào, rồi áp lên dữ liệu mới.
Học không giám sát (unsupervised learning):
- Đầu vào không gắn nhãn.
- Máy học cách mô tả cấu trúc của dữ liệu (vd gom cụm).
Học sâu (deep learning):
- Dùng nhiều lớp mạng nơ-ron để nhận diện mẫu, đi từ mẫu đơn giản tới phức tạp dần.
- Có thể là giám sát hoặc không giám sát.
- Ứng dụng: nhận dạng hình ảnh và giọng nói.

3.6 Quá khớp và dưới khớp — overfitting vs underfitting

Hai lỗi mô hình đối lập mà học máy hay mắc.

Quá khớp (overfitting):
- Máy học dữ liệu vào-ra quá khít, coi nhiễu (noise) là tham số thật, và nhận ra các mẫu/quan hệ giả (spurious).
- Mô hình trở nên quá phức tạp.
Dưới khớp (underfitting):
- Máy không nhận ra các mẫu và quan hệ có thật, coi tham số thật là nhiễu.
- Mô hình không đủ phức tạp để mô tả dữ liệu.
Vấn đề hộp đen (black box): kết quả học máy có thể dựa trên những quan hệ không giải thích được dễ dàng — bất lợi khi cần biện minh quyết định đầu tư.

Liên hệ workspace: overfitting đúng là kẻ thù số một của nghiên cứu chiến lược — "đẹp con số in-sample" mà chết ngoài mẫu. CFA chỉ định nghĩa khái niệm; phần chống nó (purged CV, DSR, OOS bất khả xâm phạm) là việc của các cụm rigor.

4. Ứng dụng vào quản lý đầu tư

Bốn mảng ứng dụng fintech mà CFA liệt kê (LOS 11.c).

4.1 Phân tích văn bản — text analytics

Định nghĩa: phân tích dữ liệu không cấu trúc ở dạng văn bản hoặc giọng nói.
Ví dụ cách làm: phân tích tần suất xuất hiện của từ và cụm từ.
Ứng dụng tài chính: tự động hóa một phần các việc như đánh giá hồ sơ pháp lý mà doanh nghiệp nộp cho cơ quan quản lý.

4.2 Xử lý ngôn ngữ tự nhiên — natural language processing

Định nghĩa: dùng máy tính và AI để diễn giải ngôn ngữ con người.
Ví dụ năng lực: nhận dạng giọng nói, dịch ngôn ngữ.
Ứng dụng tài chính:
- Kiểm tra tuân thủ quy định khi rà soát thư từ liên lạc của nhân viên.
- Đọc khối lượng lớn báo cáo nghiên cứu để bắt thay đổi tinh tế trong tâm lý (sentiment) — tinh tế hơn so với chỉ nhìn khuyến nghị mua/bán của chuyên viên.

4.3 Quản trị rủi ro — risk governance

Bối cảnh: doanh nghiệp phải hiểu mức độ phơi nhiễm trước nhiều loại rủi ro; cơ quan quản lý buộc làm đánh giá rủi ro và kiểm tra sức chịu đựng (stress testing).
Vì sao cần dữ liệu lớn: mô phỏng, phân tích kịch bản và các kỹ thuật khác cần lượng lớn dữ liệu định lượng cộng nhiều thông tin định tính.
Vai trò học máy: hữu ích để mô hình hóa và kiểm tra rủi ro, nhất là khi dùng dữ liệu thời gian thực để theo dõi mức phơi nhiễm liên tục.

4.4 Giao dịch theo thuật toán — algorithmic trading

Định nghĩa: giao dịch chứng khoán bằng máy tính dựa trên bộ quy tắc định trước.
Các ứng dụng cụ thể:
- Tối ưu lệnh khớp — thuật toán chọn cách vào lệnh tốt nhất dựa trên dữ liệu giá và khối lượng thời gian thực.
- Chia lệnh lớn — quyết định cách chia một lệnh lớn ra nhiều sàn để khớp tốt nhất.
- Giao dịch tần suất cao (high-frequency trading) — nhận ra và tận dụng các sai lệch giá trong ngày (intraday mispricing).

5. Node ghép ra chiến lược

Dữ liệu thay thế → factor mới — bài đăng mạng xã hội, corporate exhaust, IoT là nguồn cho các factor ngoài giá thuần (sentiment, dòng người, dòng hàng).
Học máy → tổ hợp tín hiệu — đúng hướng "ML adaptive combine nhiều feature" của workspace; cụm này đặt tên cho train/valid/test và overfitting mà các cụm rigor sẽ siết.
NLP → tín hiệu tâm lý — đọc báo cáo, hồ sơ pháp lý ra điểm sentiment, gắn vào DAG như một node quyết định kiểu LLM.
Giao dịch theo thuật toán → khâu thực thi — nằm ở cuối DAG; trong phạm vi nghiên cứu/paper của workspace thì chỉ mô phỏng, không chạy thật.

6. Bài tập có lời giải

Cụm này là cụm mô tả nên bài tập là câu hỏi khái niệm định tính (đề + đáp án giải thích), không phải bài tính số: xem bai-tap.md.

7. Liên hệ bức tranh gốc

Cụm này = lớp từ vựng nền, không phải lớp tính toán:
- Định khung tên gọi cho mọi thứ về sau — dữ liệu, nguồn, xử lý, AI/ML, ứng dụng.
- Là chỗ CFA và thế giới ML của anh gặp nhau ở mức khái niệm.
Vai trò với anh: phần ML/AI ở đây anh nắm sẵn và sâu hơn yêu cầu thi nhiều:
- Học máy, học giám sát/không giám sát, học sâu, train/valid/test, overfitting — anh dùng hằng ngày.
- Giá trị thật của cụm là góc nhìn tài chính: dữ liệu thay thế tìm edge ở đâu, NLP đọc sentiment thế nào, vì sao quản trị rủi ro cần dữ liệu lớn — đây mới là phần đáng đọc kỹ.
Cảnh báo neo về workspace: CFA dừng ở mức "biết tên ba tập + biết overfitting là gì". Nghiên cứu chiến lược nghiêm túc phải đi xa hơn hẳn — chống rò rỉ dữ liệu, kiểm tra ngoài mẫu, hiệu chỉnh đa kiểm định — đúng tinh thần anti-leakage của workspace.

Cụm Big Data Techniques — Nhập môn kỹ thuật dữ liệu lớn ​

Đồ thị khái niệm ​

1. Công nghệ tài chính (fintech) ​

1.1 Fintech là gì — fintech ​

2. Dữ liệu lớn (Big Data) ​

2.1 Định nghĩa và nguồn — Big Data and its sources ​

2.2 Ba đặc trưng — volume, velocity, variety ​

2.3 Cấu trúc dữ liệu — structured vs unstructured ​

3. Khoa học dữ liệu, AI và học máy ​

3.1 Năm bước xử lý dữ liệu — data processing steps ​

3.2 Trực quan hóa — visualization ​

3.3 Thách thức của dữ liệu lớn — Big Data challenges ​

3.4 Trí tuệ nhân tạo — artificial intelligence ​

3.5 Học máy — machine learning ​

Ba tập dữ liệu — train / validation / test ​

Học giám sát, không giám sát, học sâu ​

3.6 Quá khớp và dưới khớp — overfitting vs underfitting ​

4. Ứng dụng vào quản lý đầu tư ​

4.1 Phân tích văn bản — text analytics ​

4.2 Xử lý ngôn ngữ tự nhiên — natural language processing ​

4.3 Quản trị rủi ro — risk governance ​

4.4 Giao dịch theo thuật toán — algorithmic trading ​

5. Node ghép ra chiến lược ​

6. Bài tập có lời giải ​

7. Liên hệ bức tranh gốc ​