[Level 1] Quantitative Methods

[Tóm tắt các kiến thức quan trọng] của Reading 5: Sampling and Estimation

Các vấn đề cơ bản cần chú ý khi học Reading 10 trong chương trình CFA level 1

1. Một số khái niệm cơ bản

1.1. Các phương pháp chọn mẫu

Phương pháp

Đặc điểm

Chọn mẫu ngẫu nhiên đơn giản

(simple random sampling)

Mẫu được chọn một cách ngẫu nhiên trong đó các quan sát trong tổng thể có cơ hội được lựa chọn ngang nhau.

Chọn mẫu hệ thống

(systematic sampling)

Chọn liên tiếp các quan sát ở vị trí thứ k của tổng thể cho tới khi đạt kích thước mẫu mong muốn. Mẫu được chọn theo phương pháp này được coi là gần như ngẫu nhiên.

Chọn mẫu ngẫu nhiên phân tầng

(stratified random sampling)

Mẫu được lựa chọn bằng cách chia tổng thể điều tra thành nhiều nhóm, loại khác nhau (gọi là tầng - stratum), sau đó lựa chọn quan sát theo tỷ trọng của mỗi tầng trong tổng thể điều tra.

Ứng dụng: đầu tư trái phiếu thụ động (bond indexing).

1.2. Tham số tổng thể, tham số mẫu và sai số chọn mẫu

Tham số tổng thể (parameter) là một giá trị được tính từ dữ liệu của tổng thể hoặc dùng để miêu tả một tổng thể.

Tham số mẫu (sample statistic, statistic) là một giá trị được tính từ dữ liệu của mẫu hoặc dùng để miêu tả một mẫu.

Sai số chọn mẫu (sampling error) là sai số do sự khác nhau giữa giá trị ước lượng của tham số mẫu và giá trị của tham số tổng thể tương ứng.

1.3. Phân phối mẫu

Phân phối mẫu (sampling distribution) là phân phối xác suất của tất cả các giá trị mà một tham số mẫu có thể nhận khi tính từ các mẫu có cùng kích thước và được chọn từ cùng một tổng thể.

1.4. Dữ liệu chuỗi thời gian và dữ liệu chéo

Dữ liệu chuỗi thời gian (time-series data) bao gồm các quan sát tại các thời điểm cụ thể và cách đều nhau.

Dữ liệu chéo (cross-sectional data) bao gồm các quan sát tại một thời điểm cụ thể.

2. Phân phối của trung bình mẫu

2.1. Định lý giới hạn trung tâm

Định lý giới hạn trung tâm (the central limit theorem) khằng định rằng: với một tổng thể cho trước có dạng phân phối bất kỳ, trung bình μ và phương sai hữu hạn , phân phối của trung bình mẫu (tính từ các mẫu có cùng cỡ mẫu n được rút ra từ tổng thể này) sẽ xấp xỉ chuẩn với trung bình μ, và phương sai /n, khi mẫu có kích thước đủ lớn (n>30).

2.2. Sai số chuẩn của trung bình mẫu

Sai số chuẩn của trung bình mẫu (standard error of the sample mean) là độ lệch chuẩn của phân phối của trung bình mẫu. Kí hiệu:  hoặc .

  • Khi biết phương sai tổng thể: . Trong đó: σ: độ lệch chuẩn tổng thể, n: kích thước mẫu.
  • Khi không biết phương sai tổng thể: . Trong đó: s: độ lệch chuẩn mẫu, n: kích thước mẫu.

3. Ước lượng điểm và ước lượng khoảng của trung bình tổng thể

3.1. Ước lượng điểm

Ước lượng điểm (point estimate) là giá trị cụ thể được tính từ các quan sát ở mẫu, được sử dụng để ước tính tham số của tổng thể. Các công thức được sử dụng để tính toán ước lượng điểm được gọi là các hàm ước lượng (estimator).

Giá trị trung bình mẫu của một mẫu cụ thể là một ví dụ của ước lượng điểm (point estimate), vì có giá trị xác định và được coi như là một ước lượng của trung bình tổng thể.

Các tiêu chuẩn của hàm ước lượng:

  • Không chệch (unbiased): giá trị kỳ vọng của hàm ước lượng bằng tham số tổng thể mà nó ước lượng.
  • Hiệu quả (efficient): trong tất cả các hàm không chệch ước lượng một tham số tổng thể, hàm ước lượng được coi là hiệu quả nếu phương sai của phân phối mẫu của nó nhỏ hơn phương sai của phân phối mẫu của tất cả các hàm khác cùng ước lượng tham số đó.
  • Vững (consistent): độ chính xác của ước lượng tăng khi kích thước mẫu tăng

3.2. Ước lượng khoảng

Khoảng tin cậy (confidence interval) là một khoảng giá trị xung quanh giá trị kỳ vọng mà ta kỳ vọng xác suất nó bao hàm giá trị thực là 100(1 – α) %, với 1 – α là độ tin cậy (degree of confidence) hay α là mức ý nghĩa thống kê (level of significance).

Tổng quát: Khoảng tin cậy 100(1 – α) % của một tham số mẫu có dạng:

Ước lượng điểm ± Nhân tố độ tin cậy x Độ lệch chuẩn

Trong đó:
  • Ước lượng điểm: là ước lượng điểm của tham số tổng thể 
  • Nhân tố độ tin cậy: một số xác định dựa trên giả thuyết về phân phối của ước lượng điểm và độ tin cậy 1 – α
  • Độ lệch chuẩn: độ lệch chuẩn của tham số mẫu dùng cho ước lượng điểm

Ứng dụng: Khoảng tin cậy của trung bình mẫu được tính theo công thức:

 

Phân phối z

Phân phối t

Điều kiện áp dụng

(1) Tổng thể tuân theo phân phối chuẩn và biết phương sai tổng thể hoặc

(2) Tổng thể không tuân theo phân phối chuẩn, biết phương sai của tổng thể (known variance) và kích thước mẫu đủ lớn (n>30). 

(1) Tổng thể tuân theo phân phối chuẩn và không biết phương sai tổng thể, hoặc

(2) Tổng thể không tuân theo phân phối chuẩn, không biết phương sai tổng thể và kích thước mẫu đủ lớn (n>30)

Khoảng tin cậy

Lưu ý  (**) Phân phối z cũng có thể được chấp nhận trong trường hợp không biết phương sai của tổng thể và mẫu có kích thước đủ lớn, tuy nhiên phân phối t vẫn có độ chính xác cao hơn. 

Trong đó

= trung bình mẫu

n: kích thước mẫu

= nhân tố độ tin cậy theo phân phối z, ngăn cách α/2 giá trị lớn nhất (đuôi bên phải) với phần còn lại.

= nhân tố độ tin cậy theo phân phối độ tự do df = n – 1, ngăn cách α/2 giá trị lớn nhất (đuôi bên phải) với phần còn lại.

(1) = độ lệch chuẩn của trung bình mẫu với σ là độ lệch chuẩn của tổng thể.

(2) = độ lệch chuẩn của trung bình mẫu với s là độ lệch chuẩn của mẫu.

= độ lệch chuẩn của trung bình mẫu với s là độ lệch chuẩn của mẫu.

 

Ví dụ: Mẫu gồm 100 nhà đầu tư cá nhân có trung bình giá trị danh mục đầu tư là $28,000 với độ lệch chuẩn là $4,250. Xác định khoảng tin cậy 95% của trung bình tổng thể.

Giải:

Ví dụ này rơi vào trường hợp (**), do đó áp dụng phân phối z hay phân phối t đều được.

Ta có:

α = 100(1 – 0.95)% = 5%;  α/2 = 2.5% = 0.025

 

Trung bình mẫu tuân theo phân phối chuẩn với giá trị trung bình ước lượng là và độ lệch chuẩn là .

Nhân tố tin cậy z:

Khoảng tin cậy 95%:

Vậy khoảng tin cậy 95% của trung bình tổng thể là [27,167; 28,833]

                

Trung bình mẫu tuân theo phân phối Student’s t df = 99, giá trị trung bình ước lượng là và độ lệch chuẩn là .

Nhân tố tin cậy t:

Khoảng tin cậy 95%:

Vậy khoảng tin cậy 95% của trung bình tổng thể là [27,157; 28,843]

 

4. Một số vấn đề liên quan đến dữ liệu

Thiên lệch (biases)

Đặc điểm

Thiên lệch do khai phá dữ liệu

(data-mining bias)

Xảy ra khi lặp đi lặp lại quá trình khai thác dữ liệu từ một bộ dữ liệu cho tới khi đạt được kết quả mong muốn.

Thiên lệch trong chọn mẫu

(sample selection bias)

Xảy ra khi dữ liệu bị loại bỏ khỏi quá trình phân tích một cách có hệ thống, thường do không còn khả dụng.

Thiên lệch tồn tại

(survivorship bias)

Một dạng phổ biến nhất của thiên kiến trong chọn mẫu, khi dữ liệu bị loại bỏ khỏi quá trình phân tích do chủ thể hoặc dữ liệu đã gặp thất bại vì vậy không thể tồn tại. Mẫu chỉ bao gồm những dữ liệu của những chủ thể có thể tồn tại với kết quả lạc quan.

Thiên lệch tiên liệu

(look-ahead bias)

Xảy ra khi nghiên cứu sử dụng dữ liệu chưa khả dụng tại thời điểm nghiên cứu.

Thiên lệch khoảng thời gian

(time-period bias)

Xảy ra khi dữ liệu được thu thập trong khoảng thời gian quá ngắn hoặc quá dài.

Author: Thanh Thủy

Reviewer: Hoang Ngoc