[Level 1] Quantitative Methods

[Tóm tắt các kiến thức quan trọng] của Reading 2: Organnizing, Visualizing and Describing data

Các vấn đề cơ bản cần chú ý khi học Reading 2 trong chương trình CFA level 1

1. Mô tả bộ dữ liệu (Data set)

1.1. Một số khái niệm cơ bản

Tổng thể (population): Tập hợp tất cả các phần tử thuộc tập dữ liệu được nghiên cứu

Mẫu (sample): Một phần của tổng thể được chọn ra theo những cách thức nhất định và với một dung lượng hợp lý.

Thống kê mô tả (descriptive statistics): bằng các phương pháp tổ chức, phân tích, trình bày dữ liệu, thống kê mô tả đưa ra được các thông tin có ý nghĩa và mô tả bộ dữ liệu có kích thước lớn hoặc mô tả tổng quan một tình huống.

Thống kê suy luận (inferential statistics): bằng các phương pháp phân tích, quan sát một nhóm mẫu, thống kê suy luận đưa ra được kết luận chung về tổng thể và từ đó đưa ra các dự đoán, ước tính, đánh giá cho bộ dữ liệu lớn, vượt ngoài những dữ liệu có sẵn.

Các đại lượng được nghiên cứu trong Reading 7 thuộc phạm trù của thống kê mô tả.

1.2. Phân loại thang đo

Thang đo

Định nghĩa

Ví dụ

Thang đo định danh (nominal scale)

Thang đo dùng để phân chia (hay đặt tên) nhóm được khảo sát thành các lớp phân loại (category) khác nhau.

Nam/nữ;

Nông thôn/thành thị;

Thang đo thứ bậc (ordinal scale)

Bản chất là thang định danh nhưng các lớp phân loại khác nhau được sắp xếp theo một thứ hạng giảm dần hoặc tăng dần.

Hạng nhất/hạng nhì/hạng ba

Thang đo định khoảng (interval scale)

Bản chất là thang thứ bậc có các khoảng cách đều nhau nhưng không có điểm gốc 0 tuyệt đối.

Thang đo nhiệt độ ‎°C

Thang đo tỉ lệ

(ratio scale)

Thang đo định khoảng với điểm 0 tuyệt đối.

Thang đo với các thông số vật lý: dài, rộng, cao; cân nặng; thu nhập.

Thang đo định danh cung cấp ít thông tin nhất. Thang đo tỉ lệ cung cấp thông tin chi tiết và chính xác nhất.

2. Tổng hợp và trình bày dữ liệu

2.1. Khái niệm cơ bản liên quan đến Phân phối tần suất

Tham số tổng thể (parameter): là đại lượng mô tả đặc tính của một tổng thể

Trị thống kê của mẫu (sample statistic): là đại lượng mô tả đặc tính của một mẫu

Phân phối tần suất (frequency distribution): bảng tổng hợp khối lượng số liệu lớn bằng cách phân loại kết quả quan sát thống kê thành các tổ hay nhóm, sau đó chỉ ra cách thức phân phối của những kết quả quan sát.

2.2. Các bước xây dựng phân phối tần suất

Bước 1: Xác định các khoảng (Define the intervals)

Xác định phạm vi của bộ dữ liệu, sau đó chia thành các khoảng phạm vi nhỏ hơn, sao cho mỗi dữ liệu quan sát đều có thể nằm trong một khoảng xác định.

Bước 2: Kiểm đếm và phân bổ dữ liệu (Tally the observations)

Sau khi chia được bộ dữ liệu thành các khoảng, phân bổ các dữ liệu vào nhóm khoảng phù hợp

Bước 3: Đếm dữ liệu có trong mỗi khoảng (Count the observations)

Sau khi chia dữ liệu vào nhóm khoảng phù hợp, đếm dữ liệu xuất hiện trong mỗi khoảng, từ đó xác định được tần suất xuất hiện

2.3. Tần số tương đối và tần số tương đối tích lũy

Tần số tương đối (relative frequency): tần số tương đối bằng số dữ liệu quan sát trong một khoảng chia cho tổng số quan sát trong mẫu.

Tần suất tương đối tích lũy (cumulative relative frequency): tần số tương đối tích lũy là tổng các tần số tương đối của các giá trị nhỏ hơn hoặc bằng giá trị lớn nhất của một khoảng giá trị xác định.

2.3. Biểu đồ tần suất

Biểu đồ tần suất (histogram): một biểu diễn chính xác của phân phối dữ liệu số.                                                                            Histogram
2.4. Đa giác tần suất

Đa giác tần suất (frequency polygon): biểu đồ phân bố tần số thu được bằng cách vẽ các đường thẳng nối các điểm liên tiếp đại diện cho các nhóm tần số.   

                                                   Frequency polygon

3. Các số đo xu hướng độ tập trung

3.1. Trung bình cộng giản đơn (arithmetic mean)

Trung bình cộng giản đơn là thương số giữa tổng giá trị của một dãy số và số phần tử trong tập hợp đó.

Trung bình cộng của tổng thể:

Trung bình cộng của mẫu:

3.2. Trung bình cộng có trọng số 

Trung bình cộng có trọng số hay bình quân gia quyền (weighted average mean): các phần tử sử dụng trong quá trình tính toán nó được gia quyền để phản ánh thực tế là không phải tất cả các phần tử đều có tầm quan trọng như nhau.

Ví dụ: Một danh mục đầu tư bao gồm 50% cổ phiếu thường, 40% trái phiếu, 10% tiền mặt. Biết lợi nhuận của cổ phiếu là 12%, của trái phiếu là 7% và của tiền mặt là 3%, xác định lợi nhuận của danh mục đầu tư này?

Lợi nhuận danh mục đầu tư = w(stock)xR(stock) + w(bond)xR(bond) + w(cash)xR(cash)

= 0.5x12 + 0.4x0.07 + 0.1x0.03 = 0.091 = 9.1%

3.3. Trung bình nhân 

Trung bình nhân (geometric mean) được tính bằng căn bậc n của tích n số.

Ứng dụng: Tính tỉ lệ tăng trưởng kép

3.4. Trung bình điều hòa

Trung bình điều hòa (harmonic mean) được tính bằng cách chia số lượng quan sát cho tổng đối ứng của mỗi số trong chuỗi.

Ứng dụng: Tính giá mua trung bình, ví dụ như giá trị trên một cổ phiếu của những khoản đầu tư định kỳ bằng nhau.

3.5. Trung vị 

Trung vị (median) là giá trị ở giữa trong một dãy các quan sát được sắp xếp theo thứ tự tăng dần hoặc giảm dần.
  • Nếu số quan sát trong mẫu – n là số lẻ, trung vị là giá trị của quan sát ở vị trí (n + 1)/2.
  • Nếu số quan sát trong mẫu – n là số chẵn, trung vị là trung bình cộng giá trị quan sát ở vị trí n/2 và giá trị quan sát ở vị trí (n + 2)/2.

3.6. Yếu vị

Yếu vị (mode) là giá trị của phần tử có tần suất tuyệt đối lớn nhất trong một phân phối.

4. Đo vị trí (measures of location)

4.1. Điểm phân vị

Điểm phân vị (Quantile or Fractile) chia một tập hợp số đã được xếp thứ tự thành nhiều phần có số số hạng bằng nhau (hay gần bằng nhau)

4.2. Điểm tứ phân vị, điểm ngũ phân vị, điểm thập phân vị và điểm bách phân vị

Điểm tứ phân vị (quartile): giá trị bằng số phân chia một nhóm các kết quả quan sát bằng số thành bốn phần, mỗi phần có số liệu quan sát bằng nhau (= 25% số kết quả quan sát). Kí hiệu: Q1, Q2, Q3, Q4.

Điểm ngũ phân vị (quintile): giá trị bằng số phân chia một nhóm các kết quả quan sát bằng số thành năm phần, mỗi phần có số liệu quan sát bằng nhau (= 20% số kết quả quan sát).

Điểm thập phân vị (decile): giá trị bằng số phân chia một nhóm các kết quả quan sát bằng số thành mười phần, mỗi phần có số liệu quan sát bằng nhau (=10% số kết quả quan sát).

Điểm bách phân vị (percentile): giá trị bằng số phân chia một nhóm các kết quả quan sát bằng số thành một trăm phần, mỗi phần có số liệu quan sát bằng nhau (=1% số kết quả quan sát). Kí hiệu: P1, P2, P3…, P100.

Vị trí của Py (the yth percentile) trong một mảng giá trị sắp xếp theo thứ tự tăng dần được tính bằng công thức:

5. Đo độ phân tán (measures of dispersion)

5.1. Khoảng biến thiên 
Khoảng biến thiên (range) là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất của một tập dữ liệu.

Range = maximum value – minimum value

5.2. Độ lệch tuyệt đối trung bình 

Độ lệch tuyệt đối trung bình (mean absolute deviation – MAD) là đại lượng phản ánh sự biến thiên trong nội bộ hay một nhóm các kết quả quan sát, được tính bằng cách lấy tổng các giá trị tuyệt đối của độ lệch giữa kết quả quan sát và số bình quân, chia cho số kết quả quan sát

5.3. Phương sai  và độ lệch chuẩn 

Phương sai (variance) là trung bình cộng của bình phương độ lệch của các giá trị so với giá trị trung bình hoặc giá trị kỳ vọng của một phân phối.

Độ lệch chuẩn (standard deviation) là căn bậc hai dương của phương sai. Độ lệch chuẩn có cùng đơn vị đo với các giá trị của quan sát.

 

Tổng thể

Mẫu

Phương sai

Độ lệch chuẩn

Bảng công thức phương sai, độ lệch chuẩn của tổng thể và mẫu

5.4. Bất đẳng thức Chebyshev

Ví dụ: Tối thiểu, tỉ lệ quan sát nằm trong khoảng 2 độ lệch chuẩn của giá trị trung bình là: 1 - 1/4 = 0.75 hay 75%.

5.5. Hệ số biến thiên 
Hệ số biến thiên (coefficient of variation - CV) dùng để đo lường độ phân tán tương đối của dữ liệu so với giá trị trung bình của phân phối.

Ứng dụng: so sánh độ phân tán của các tập dữ liệu khác nhau, đo lường mức độ rủi ro trên một đơn vị lợi nhuận trong đầu tư.

6. Đo độ lệch/độ bất đối xứng (measure of skewness)

Độ lệch (skewness) đo lường mức độ mức độ bất đối xứng của phân phối xác suất của một biến ngẫu nhiên.

  • Skewness > 0 (positive-skewed, right-skewed): phân phối lệch phải, mode < median < mean
  • Skewness = 0 (symmetrical): phân phối đối xứng, mode = median = mean
  • Skewness < 0 (negative-skewed, left-skewed): phân phối lệch trái, mode > median > mean
Skewness
7. Đo độ nhọn (measure of kurtosis)
Độ nhọn (kurtosis) ở phần đỉnh của một nhóm các kết quả quan sát bằng số được tóm tắt bằng một phân phối tần suất. Khi những phân phối như vậy được biểu thị bằng biểu đồ hình chuông hay phân phối liên tục, độ nhọn phản ánh chiều cao tối đa của phân phối.

Phân phối chuẩn (normal distribution) có độ nhọn bằng 3. Để xác định độ nhọn của một phân phối bất kỳ, ta so sánh độ nhọn của phân phối đó trong mối tương quan với độ nhọn của phân phối chuẩn:

Excess kurtosis = Kurtosis - 3

  • Excess kurtosis > 0: độ nhọn “gầy” (leptokurtic), phân phối có đỉnh nhọn hơn và phần đuôi “béo” hơn phân phối chuẩn
  • Excess kurtosis = 0: độ nhọn phân phối chuẩn (mesokurtic): phân phối có độ nhọn giống phân phối chuẩn
  • Excess kurtosis < 0: độ nhọn “rộng” (platykurtic), phân phối có đỉnh ít nhọn hơn và phần đuôi “gầy” hơn phân phối chuẩn

Kurtosis

 

Author: Thanh Thủy

Reviewer: Bích Ngọc