[Level 1] Quantitative Methods

[Tổng hợp các dạng bài tập điển hình] của Reading 5: Sampling and Estimation

Các dạng bài tập thường gặp khi học Reading 5 trong chương trình CFA level 1

I. Dạng bài tập lý thuyết về định lý giới hạn trung tâm

1. Lý thuyết

2. Ví dụ

Ví dụ 1: Suppose the mean debt/equity ratio of the population of all banks in the United States is 20 and the population variance is 25. A banking industry analyst uses a computer program to select a random sample of 50 banks from this population and compute the sample mean. The program repeats this exercise 1000 times and computes the sample mean each time. According to the central limit theorem, the sampling distribution of the 1000 sample means will be approximately normal if the population of bank debt/equity ratios has:

A. a Student's t-distribution because the sample size is greater than 30.
B. a normal distribution because the sample is random.
C. any probability distribution. 

Đáp án: C

Định lý giới hạn trung tâm có thể áp dụng với bất kỳ phân phối tổng thể nào, miễn là thỏa mãn các điều kiện:

II. Dạng bài tập lý thuyết về phân phối Student’s t

1. Lý thuyết

Đặc điểm của phân phối Student’s t:

  • Xác định bởi một tham số duy nhất là bậc tự do df = n – 1 (n là số quan sát)
  • Xác suất biến tập trung ở phần đuôi lớn hơn so với phân phối chuẩn, hay có phần đuôi “béo” hơn phân phối chuẩn.
  • Khi df hay n tăng, phân phối t sẽ hội tụ gần hơn về phân phối chuẩn hóa (phần đuôi dần hẹp lại). Do đó, nếu n > 30, một cách tương đối, có thể dùng phân phối chuẩn hóa thay cho phân phối t.

2. Ví dụ

Ví dụ 1: Which one of the following distributions is described entirely by the degrees of freedom?

A. Normal distribution.
B. Lognormal distribution.
C. Student’s t-distribution.

Đáp án: C

Phân phối t được xác định bởi một tham số duy nhất là bậc tự do.

Ví dụ 2: Compared to a t-distribution with 10 degrees of freedom, and compared to a normal distribution, a t-distribution with 20 degrees of freedom and the same variance has:

 

Compared to df = 10

Compared to normal

A)    

thinner tails

fatter tails

B)    

fatter tails

thinner tails

C)    

fatter tails

fatter tails

Đáp án: A

Khi bậc tự do df tăng, hay nói cách khác, thích thước mẫu tăng, phân phối t sẽ hội tụ gần hơn về phân phối chuẩn (phần đuôi dần hẹp lại). Do đó, bậc tự do càng cao, đuôi của phân phối càng hẹp lại (phân phối chuẩn có thể coi là phân phối t với df = ∞).

III.    Dạng bài tập tính độ lệch chuẩn của trung bình mẫu và kích thước mẫu

1.         Lý thuyết


2.         Ví dụ

Ví dụ 1: The following data are available on a sample of advertising budgets of 81 U.S. manufacturing companies: The mean budget is $10 million. The sample variance is 36 million. The standard error of the sample mean is:

A. $667.
B. $1,111.
C. $400.

Đáp án: A

Đây là trường hợp không biết phương sai tổng thể: 

Ví dụ 2: Melissa Cyprus, CFA, is conducting an analysis of inventory management practices in the retail industry. She assumes the population cross-sectional standard deviation of inventory turnover ratios is 20. How large a random sample should she gather in order to ensure a standard error of the sample mean of 4?

A. 20.
B. 80.
C. 25.

Đáp án: C

Trường hợp biết phương sai tổng thể:

IV.   Dạng bài tập ước lượng khoảng tin cậy của trung bình tổng thể

1.         Lý thuyết

Bước 1: Dựa vào điều kiện áp dụng và dữ kiện đề bài để xác định loại phân phối phù hợp.

Bước 2: Dựa vào loại phân phối đã chọn, xác định nhân tố độ tin cậy

Bước 3: Xác định khoảng tin cậy

 

Phân phối z

Phân phối t

Điều kiện áp dụng

(1) Tổng thể tuân theo phân phối chuẩn và biết phương sai tổng thể hoặc

(2) Tổng thể không tuân theo phân phối chuẩn, biết phương sai của tổng thể (known variance) và kích thước mẫu đủ lớn (n>30). 

(1) Tổng thể tuân theo phân phối chuẩn và không biết phương sai tổng thể, hoặc

(2) Tổng thể không tuân theo phân phối chuẩn, không biết phương sai tổng thể và kích thước mẫu đủ lớn (n>30)

Khoảng tin cậy

Lưu ý  (**) Phân phối z cũng có thể được chấp nhận trong trường hợp không biết phương sai của tổng thể và mẫu có kích thước đủ lớn, tuy nhiên phân phối t vẫn có độ chính xác cao hơn. 

Trong đó

= trung bình mẫu

n: kích thước mẫu

= nhân tố độ tin cậy theo phân phối z, ngăn cách α/2 giá trị lớn nhất (đuôi bên phải) với phần còn lại.

= nhân tố độ tin cậy theo phân phối độ tự do df = n – 1, ngăn cách α/2 giá trị lớn nhất (đuôi bên phải) với phần còn lại.

(1) = độ lệch chuẩn của trung bình mẫu với σ là độ lệch chuẩn của tổng thể.

(2) = độ lệch chuẩn của trung bình mẫu với s là độ lệch chuẩn của mẫu.

= độ lệch chuẩn của trung bình mẫu với s là độ lệch chuẩn của mẫu.

2.         Ví dụ

Ví dụ 1: An investment analyst takes a random sample of 100 aggressive equity funds and calculates the average beta as 1.7. The sample betas have a standard deviation of 0.4. Using a 95% confidence interval and a z-statistic, which of the following statements about the confidence interval and its interpretation is most accurate? The analyst can be confident at the 95% level that the interval:

A. 1.580 to 1.820 includes the mean of the population beta.
B. 1.622 to 1.778 includes the mean of the population beta.
C. 1.634 to 1.766 includes the mean of the population beta.

Đáp án: B

Bước 1: Ví dụ này rơi vào trường hợp (**), có thể sử dụng thống kê z hoặc thống kê t đều được. Tuy nhiên, do đề yêu cầu dùng thống kê z nên khoảng tin cậy của trung bình tổng thể sẽ được tính theo công thức:

Bước 2: Khoảng tin cậy 95%, do đó sử dụng

Bước 3: Khoảng tin cậy 95% của trung bình tổng thể là:

Ví dụ 2: An analyst has a sample of 28 observations of the mean weekly return of an index portfolio that includes 50 stocks. The weekly returns are approximately normally distributed, and the sample mean and sample variance are 1.2% and 0.00175. A 90% confidence interval for the population mean is closest to:

A. –5.702% to 8.102%.
B. –5.916% to 8.315%.
C. –5.924% to 8.324%.

Đáp án: C

Bước 1: Ví dụ này rơi vào trường hợp (1) của thống kê t, do đó khoảng tin cậy của trung bình mẫu được tính theo công thức:

Bước 2: Trung bình mẫu tuân theo phân phối t với df = 28 – 1 = 27, do đó, nhân tố độ tin cậy là = 1.703 (tra bảng).

Bước 3: Khoảng tin cậy 90% của trung bình mẫu là:

V.    Dạng bài tập nhận biết các vấn đề liên quan đến dữ liệu

1.         Lý thuyết

Một số vấn đề liên quan đến dữ liệu phổ biến bao gồm:

Thiên lệch (biases)

Đặc điểm

Thiên lệch do khai phá dữ liệu

(data-mining bias)

Xảy ra khi lặp đi lặp lại quá trình khai thác dữ liệu từ một bộ dữ liệu cho tới khi đạt được kết quả mong muốn.

Thiên lệch trong chọn mẫu

(sample selection bias)

Xảy ra khi dữ liệu bị loại bỏ khỏi quá trình phân tích một cách có hệ thống, thường do không còn khả dụng.

Thiên lệch tồn tại

(survivorship bias)

Một dạng phổ biến nhất của thiên kiến trong chọn mẫu, khi dữ liệu bị loại bỏ khỏi quá trình phân tích do chủ thể hoặc dữ liệu đã gặp thất bại vì vậy không thể tồn tại. Mẫu chỉ bao gồm những dữ liệu của những chủ thể có thể tồn tại với kết quả lạc quan.

Thiên lệch tiên liệu

(look-ahead bias)

Xảy ra khi nghiên cứu sử dụng dữ liệu chưa khả dụng tại thời điểm nghiên cứu.

Thiên lệch khoảng thời gian

(time-period bias)

Xảy ra khi dữ liệu được thu thập trong khoảng thời gian quá ngắn hoặc quá dài.

2.         Ví dụ

Ví dụ 1: Sunil Hameed is a reporter with the weekly periodical The Fun Finance Times. Today, he is scheduled to interview a researcher who claims to have developed a successful technical trading strategy based on trading on the CEO's birthday (sample was taken from the Fortune 500). After the interview, Hameed summarizes his notes (partial transcript as follows). The researcher:

  1. was defensive about the lack of economic theory consistent with his results.
  2. used the same database of data for all his tests and has not tested the trading rule on out-of-sample data.
  3. excluded stocks for which he could not determine the CEO's birthday.
  4. used a sample cut-off date of the month before the latest market correction.

Select the choice that best completes the following: Hameed concludes that the research is flawed because the data and process are biased by:

A. data mining, sample selection bias, and time-period bias.
B. sample selection bias and time-period bias.
C. data mining, time-period bias, and look-ahead bias.

Đáp án: A

(1) và (2) là dấu hiệu của thiên lệch khai phá dữ liệu. Ở ví dụ này, kết quả nghiên cứu không dựa trên cơ sở lý thuyết mà rất có thể dựa vào việc lặp đi lặp lại quá trình khai thác dữ liệu từ một bộ dữ liệu cho tới khi đạt được kết quả mong muốn; kết quả không được kiểm định lại bằng dữ liệu ngoài mẫu đã dùng để đưa ra kết quả đó (out-of-sample test).

(3) là dấu hiệu của thiên lệch chọn mẫu, xảy ra khi dữ liệu bị loại bỏ khỏi quá trình phân tích một cách có hệ thống. Ở ví dụ này, các chứng khoán mà không thể xác định được ngày sinh nhật của CEO đều bị loại bỏ

(4) là dấu hiệu của thiên kiến khoảng thời gian, xảy ra khi dữ liệu được thu thập trong khoảng thời gian quá ngắn hoặc quá dài. Ở ví dụ này, khoảng thời gian thu thập dữ liệu có thể quá ngắn do mẫu được giới hạn ngày hạn chót thu thập trước cả ngày điều chỉnh thị trường cuối cùng.

 

Author: Thanh Thủy

Reviewer: Đào Ngọc Sơn, Hoang Ngoc