[Pre-CFA Level II] Quantitative Methods

[Tổng hợp các kiến thức cơ bản] Reading 8: Big Data projects

Tổng hợp các kiến thức quan trọng, cần lưu ý khi học Reading 8 trong chương trình CFA level 2

Big Data là các tập dữ liệu có khối lượng lớn và phức tạp mà các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.

Về mặt nền tảng kiến thức, người học cần nắm được đặc trưng của big data, phân loại và các quá trình liên quan đến kiểu dữ liệu này.

1.   Đặc trưng và phân loại

1.1.      Đặc trưng

Big data được đặc trưng bởi 3 khía cạnh (3-Vs): khối lượng (volume), sự đa dạng (variety), và tốc độ (velocity).

  • Khối lượng (volume): “Big” data chỉ các tập dữ liệu với khối lượng khổng lồ.
  • Sự đa dạng (variety): Big data là các tập dữ liệu được thu thập từ các nguồn rất đa dạng: do người dùng tạo ra, giao dịch truyền thống, thư điện tử, hình ảnh, lượt click chuột,.. Việc thu thập big data vì vậy mang lại nhiều cơ hội nhưng đem đến nhiều vấn đề đáng lưu tâm, đáng kể đến nhất là việc xâm phạm quyền riêng tư cá nhân.
  • Tốc độ (velocity): chỉ tốc độ mà dữ liệu được tạo ra và được thu thập lại.

1.2.      Phân loại

  • Dữ liệu có cấu trúc: là các dữ liệu đã được xử lý và sắp xếp theo hàng và cột.
  • Dữ liệu không có cấu trúc: là các dữ liệu chưa được sắp xếp, và các thuật toán machine learning buộc phải lần lượt kiểm tra các dữ liệu gây nhiễu (noise) để nhặt thông tin.

2.   Quá trình phân tích dữ liệu

Quá trình phân tích dữ liệu bao gồm các bước như sau:

  • Bước 1: Khái quát hóa mục tiêu của mô hình (Conceptualization of the modeling task)

Ở bước này, chúng ta cần phải chỉ ra được vấn đề cần giải quyết (1), đầu ra của mô hình (2), mô hình sẽ được sử dụng như thế nào và đối tượng sử dụng là ai (3), và liệu mô hình này có sẽ được tích hợp trong quy trình kinh doanh nào hay không? (4)

  • Bước 2: Thu thập dữ liệu (Data collection)
  • Bước 3: Chuẩn bị và xử lý dữ liệu (Data preparation and wrangling)

Ở bước này, nhà nghiên cứu cần phải làm sạch bộ dữ liệu để đưa vào mô hình. Làm sạch bộ dữ liệu, tức là việc xử lý các dữ liệu bị bỏ trống, và xác minh các dữ liệu đang nằm ngoài giới hạn cho phép (out-of-range data). Tiền xử lý dữ liệu (preprocessing) chính là việc tổng hợp, lọc và trích xuất các biến số liên quan.

  • Bước 4: Thăm dò dữ liệu (Data exploration)

Lựa chọn các biến (features), cũng như bước phân tích dữ liệu thăm dò.

  • Bước 5: Huấn luyện mô hình (Model training)

Xác định thuật toán Machine learning phù hợp, đánh giá mô hình bằng tập dữ liệu huấn luyện, và tiến hành tinh chỉnh mô hình. Việc lựa chọn mô hình phụ thuộc vào bản chất mối quan hệ giữa các biến độc lập (feature) và biến phụ thuộc (target variable).

 

Nếu bạn cần thêm thông tin, đừng quên liên hệ với chúng tôi:

Bộ phận trải nghiệm học viên tại SAPP
Hotline: (+84) 971 354 969
Email: support@sapp.edu.vn
Link yêu cầu về dịch vụ: https://page.sapp.edu.vn/phieu-yeu-cau-dich-vu-cx