[Tổng hợp các kiến thức cơ bản] Module 6: Machine learning

Tổng hợp các kiến thức quan trọng, cần lưu ý khi học Module 6 môn Quantitative Methods trong chương trình CFA level 2

Machine learning là việc sử dụng các thuật toán để ra quyết định trên cơ sở máy tính tự tổng hợp (generalize) – hay là tự xác định, tìm kiếm các mẫu (pattern) trong cơ sở dữ liệu cho sẵn. Machine learning, vì vậy, là phương pháp tối ưu hơn so với các phương pháp thống kê truyền thống, khi cần phải xử lý số lượng biến số lớn, và giữa các biến số này không tồn tại mối quan hệ tuyến tính.

Việc nắm được các khái niệm quan trọng về ML (machine learning) và các mô hình ML sẽ là nền tảng cơ bản cần thiết để người học có thể làm chủ được kiến thức của chủ đề này.

1. Các khái niệm liên quan đến Machine learning

Target variable (biến mục tiêu): là biến phụ thuộc (biến y). Biến mục tiêu có thể là biến liên tục (continuous), biến phân loại (categorical), hoặc biến thứ tự (ordinal).
Features: Các biến độc lập trong mô hình (các biến x)
Training data set (tập dữ liệu huấn luyện): là tập dữ liệu để huấn luyện cho mô hình machine learning hoặc thuật toán.
Hyperparameter: một số thông tin đầu vào về mô hình được quy định bởi người nghiên cứu.

2. Các mô hình Machine learning

2.1. Supervised learning (Học có giám sát)

Supervised learning là việc sử dụng những quan sát có dán nhãn (labeled data) để “dạy” các chương trình machine learning đưa ra dự báo chính xác. Nói cách khác, supervised learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn được gọi là quan sát có dán nhãn (data, label), tức (dữ liệu, nhãn).

Nguyên tắc hoạt động supervised learning có thể được đơn giản hóa như sau: bằng việc ghi nhớ và tổng quát hóa một số quy tắc từ một tập câu hỏi có đáp án trước, máy tính sẽ có thể trả lời được những câu hỏi dù chưa từng gặp phải, nhưng có mối liên quan.

2.2. Unsupervised learning (Học không có giám sát)

Ở mô hình này, chúng ta không biết được outcome hay nhãn mà chỉ có dữ liệu đầu vào. Thuật toán unsupervised learning sẽ dựa vào cấu trúc hoặc mối tương quan của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimensionality reduction) để thuận tiện trong việc lưu trữ và tính toán.

2.3. Deep learning & reinforced learning

Thuật toán deep learning được sử dụng để thực hiện những công việc phức tạp như nhận diện hình ảnh (image recognition), xử lý ngôn ngữ tự nhiên (natural language processing) …
Thuật toán reinforced learning là những thuật toán tự “học” từ sai số dự báo của chính mô hình thuật toán.

Cả hai thuật toán này đều dựa trên các mạng lưới thần kinh nhân tạo (neural network).

Nếu bạn cần thêm thông tin, đừng quên liên hệ với chúng tôi:

Bộ phận trải nghiệm học viên tại SAPP

Hotline: (+84) 971 354 969

Email: support@sapp.edu.vn

Link yêu cầu về dịch vụ: https://page.sapp.edu.vn/phieu-yeu-cau-dich-vu-cx