[Level 1] Quantitative Methods

[Tóm tắt kiến thức quan trọng] Module 2: Organnizing, Visualizing and Describing data

Bài viết cung cấp cho người đọc kiến thức về Module 2 môn QUANT của chương trình CFA level I

1. Khái niệm và Phân loại dữ liệu


1.1. Khái niệm: Dữ liệu có thể được định nghĩa là một tập hợp các số, ký tự, từ và văn bản cũng như hình ảnh, âm thanh và video dưới định dạng thô hoặc có tổ chức để đại diện cho sự thật hoặc thông tin

1.2. Phân loại dữ liệu theo quan điểm thống kê: Theo quan điểm thống kê, CFA phân ra thành 2 loại chính là:

Dữ liệu định lượng (Quantitative data): Trong dữ liệu định lượng, CFA lại chia nhỏ ra thành 2 nhóm, bao gồm: 

  • Discrete data: Là các dữ liệu số được lấy từ quá trình đếm và do đó được giới hạn ở số lượng giá trị hữu hạn. 
  • Continuous data: Dữ liệu có thể được đo và có thể nhận bất kỳ giá trị số nào trong một phạm vi giá trị được chỉ định và do đó không giới hạn với số lượng giá trị hữu hạn.

Dữ liệu định tính (Qualitative data): Trong dữ liệu định tính, CFA lại chia nhỏ ra thành 2 nhóm, bao gồm: 

  • Nominal data: Các giá trị phân loại không thể được sắp xếp theo thứ tự hợp lý.
  • Ordinal data: Các giá trị phân loại có thể được xếp hạng một cách hợp lý.

1.3. Phân loại dữ liệu theo cách thu thập dữ liệu: Theo cách phân loại này, dữ liệu sẽ được phân thành 3 loại như sau: 

  • Time Series Data: Các quan sát của một biến được thực hiện trong một khoảng thời gian tại các khoảng thời gian cụ thể và đều nhau.
  • Cross-sectional data: Một mẫu quan sát của nhiều biến được lấy tại một thời điểm duy nhất.
  • Panel Data: Quan sát theo thời gian của cùng một đặc điểm cho nhiều biến.

1.4. Phân loại dữ liệu theo cấu trúc tổ chức: Được phân thành 2 loại là:

  • Structured data: Dữ liệu đã được xử lý và tổ chức lại theo form được xác định trước, thường là với mô hình lặp lại.
  • Unstructured data: Dữ liệu không tuân theo bất kỳ hình thức có tổ chức thông thường nào.

1.5. Phân phối tần suất: Dữ liệu được xây dựng bằng cách đếm các quan sát của một biến theo các giá trị hoặc nhóm riêng biệt hoặc bằng cách kiểm đếm các giá trị của một biến số thành một tập hợp các giá trị được sắp xếp hợp lý.

1.6. A contingency table: Một định dạng bảng hiển thị phân phối tần số của hai hoặc nhiều biến phân loại đồng thời.

2. Các loại biểu đồ trực quan hóa dữ liệu

Các loại biểu đồ mô tả dữ liệu phổ biến:

  • Histogram
  • Frequency polygon
  • Bar chart
  • Tree map
  • Word cloud
  • Line chart
  • Scatter Plot
  • Heat Map

3. Đo lường và diễn giải các thông số đo lường của xu hướng trung tâm

3.1. Mean - Giá trị trung bình

3.1.1. Arithmetic Mean: Tổng các giá trị của các quan sát chia cho số lượng quan sát.

Công thức đối với tổng thể:

Công thức đối với mẫu:

Lưu ý: Nhược điểm của Arithmetic mean là rất dễ bị ảnh hưởng bởi các outliers. Để khắc phục hạn chế trên, có 3 cách để lựa chọn xử lý các outliers.

  • Option 1: Sử dụng dữ liệu mà không cần điều chỉnh nếu các outliers phản ánh đúng thực tế.

  • Option 2: Xóa tất cả outliers.

  • Option 3: Thay thế các outliers bằng giá trị khác.

3.1.2. Weight mean: Tổng của các giá trị nhân trọng số tương ứng trong tập dữ liệu. Weighted mean thường dùng để tính trung bình lợi nhuận của một danh mục đầu tư.

Công thức:

3.1.3. Geometric mean: thường được sử dụng để tính toán tỷ lệ thay đổi trung bình trong một khoảng thời gian hoặc để tính toán tốc độ tăng trưởng của một biến trong một khoảng thời gian.

Công thức:

Công thức đối với lợi nhuận của các khoản đầu tư:

3.1.4. Harmonic mean: Trung bình có trọng số trong đó trọng lượng quan sát có tỉ lệ nghịch với độ lớn của nó. Harmonic mean thường được sử dụng trong lĩnh vực quản lý đầu tư để xác định chi phí trung bình của cổ phiếu đã mua theo thời gian.

Công thức:

3.2. Median - Trung vị: Điểm giữa của tập dữ liệu khi dữ liệu được sắp xếp theo thứ tự tăng dần hoặc giảm dần.

3.3. Mode - Yếu vị: Giá trị xuất hiện nhiều nhất trong tập dữ liệu. Một tập dữ liệu có thể có nhiều hơn một mode hoặc thậm chí không có mode.

4. Đo lường về vị trí và xu hướng phân tán

4.1. Đo lường điểm phân vị và minh họa các điểm phân vị bằng hình ảnh

Quantile

Thuật ngữ chung cho một giá trị bằng hoặc thấp hơn tỷ lệ đã nêu của dữ liệu trong một phân phối.

Công thức

Trong đó:

  • y = Điểm phần trăm để phân chia phân phối.

  • n = Số lượng điểm dữ liệu được sắp xếp theo thứ tự tăng dần. 

4.2. Đo lường và diễn giải các thông số của xu hướng phân tán

4.2.1. Range

Sự chênh lệch giữa giá trị tối đa và tối thiểu trong bộ dữ liệu.

Công thức: Range =Maximum value−Minimum value.

4.2.2. Mean absolute deviation (MAD)

Là đại lượng được tính bằng cách lấy tổng các giá trị tuyệt đối của độ lệch giữa kết quả quan sát và số bình quân, chia cho số kết quả quan sát.

Công thức

4.2.3. Variance

Giá trị trung bình của độ lệch bình phương so với trung bình số học hoặc từ giá trị kỳ vọng ​​của phân phối.

Công thức

  • Phương sai của mẫu:

  • Phương sai của tổng thể:

4.2.4. Standard deviation

Căn bậc hai dương của phương sai.

Công thức

  • Độ lệch chuẩn của mẫu:

  • Độ lệch chuẩn của tổng thể:

4.2.5. Coefficient of variation (CV)

Tỉ số giữa độ lệch chuẩn của một tập hợp các quan sát với giá trị trung bình của chúng.

Ý nghĩa: Một đồng rủi ro được đảm bảo bởi bao nhiêu đồng lợi nhuận.

Công thức

4.3. Đo lường và diễn giải độ lệch chuẩn dưới

Target downside deviation

Thước đo rủi ro của việc thấp hơn một mục tiêu nhất định.

Công thức

5. Độ lệch; Độ nhọn và hệ số tương quan

5.1. Diễn giải về độ lệch

Độ nhọn (skewness) là thước đo đề cập đến độ lệch của phân phối so với phân phối chuẩn.

  • Skewness = 0: Đối xứng (Symmetrical) → Mean = Median = Mode.

  • Skewness > 0: Positively skewed → Mean > Median > Mode.

  • Skewness < 0: Negatively skewed → Mean < Median < Mode.

5.2. Diễn giải về độ nhọn

Độ nhọn (kurtosis) là thước đo mức độ mà phân phối có thể có đỉnh nhọn hơn (more peaked) hay thoải hơn (less peaked) so với phân phối chuẩn.

  • Kurtosis =3 → Mesokurtic: Mô tả một phân phối có cùng kurtosis với một phân phối chuẩn.

  • Kurtosis >3 → Leptokurtic: Mô tả một phân phối có đỉnh nhọn hơn một phân phối chuẩn.

  • Kurtosis <3 → Platykurtic: Mô tả phân phối có đỉnh ít nhọn hơn phân phối chuẩn.

5.3. Diễn giải hệ số tương quan giữa hai biến

Hệ số tương quan (Correlation) đo lường mối quan hệ tuyến tính giữa hai biến. Trong đó:

  • Hệ số tương quan thuận thể hiện rằng hai biến số có xu hướng di chuyển cùng nhau.

  • Hệ số tương quan nghịch thể hiện rằng hai biến số có xu hướng di chuyển ngược chiều nhau.

  • Phạm vi hệ số tương quan đi từ -1 đến 1.

Công thức hệ số tương quan của mẫu:

  • = 0 → Không có mối quan hệ tuyến tính nào giữa X và Y

  • = 1 →  Mối quan hệ tuyến tính thuận hoàn hảo giữa X và Y.

  • = -1 →  Mối quan hệ tuyến tính nghịch hoàn hảo giữa X và Y.