Tổng hợp các kiến thức quan trọng, cần lưu ý khi học Module 6 môn Quantitative Methods trong chương trình CFA level 2
Chuỗi thời gian là một tập hợp các quan sát về kết quả của một biến trong các khoảng thời gian khác nhau, ví dụ: doanh số hàng quý cho một công ty cụ thể trong năm năm qua hoặc lợi nhuận hàng ngày của một chứng khoán đã giao dịch.
Những kiến thức trọng tâm của nội dung này bao gồm việc làm quen với mô hình chuỗi thời gian, nhận diện những khuyết tật của mô hình, tính toán giá trị dự báo trong tương lai sử dụng mô hình chuỗi thời gian. Ngoài ra, người học còn cần phải hiểu về nguyên nhân tại sao cần phải sử dụng mô hình xu hướng dạng loga tuyến tính (Log-linear trend model); về tính chu kỳ, làm sao để phát hiện và xử lý tính chu kỳ trong phân tích và hồi quy dữ liệu.
Bài đọc này sẽ điểm qua những nội dung căn bản nhất về dữ liệu chuỗi thời gian, bao gồm: mô hình xu hướng tuyến tính, mô hình xu hướng dạng loga tuyến tính, và mô hình tự hồi quy (autoregressive model).
Ứng dụng của việc phân tích các dữ liệu theo thời gian (time-series data) là đưa ra dự báo về xu hướng của biến số, thông qua mô hình sự báo để đưa ra các ước lượng về dữ liệu trong tương lai.
Một chuỗi dữ liệu được cho đi theo một xu hướng nếu như khi biểu diễn các điểm dữ liệu trên đồ thị, chúng ta có thể xác định được một hình dạng (pattern) nhất định.
Hình 1: Minh họa dữ liệu chuỗi thời gian
1. Hàm xu hướng tuyến tính (Linear trend model)
1.1. Xu hướng tuyến tính (Linear trend)
Mô hình xu hướng tuyến tính được sử dụng khi các dữ liệu chuỗi thời gian được biểu diễn trên đồ thị thông qua một đường thẳng. Thông thường, biến thời gian (t) chính là biến độc lập, dùng để dự báo giá trị của biến phụ thuộc tại thời điểm t. Mô hình xu hướng tuyến tính được biểu diễn như sau:
Trong đó:
= giá trị của biến phụ thuộc tại thời điểm t
= hệ số góc (hoặc hệ số xu hướng)
= hệ số chặn
= phần tử sai số (phần dư hoặc phần tử nhiễu)
t = thời gian (biến độc lập); t = 1, 2, 3,... T
Hàm xu hướng tuyến tính phù hợp nhất khi các điểm dữ liệu phân phối đồng đều ở phía trên và dưới đường xu hướng. Mô hình này thường được áp dụng cho các dữ liệu về tăng trưởng GDP, hoặc mức độ lạm phát.
1.2. Hồi quy bình phương tối thiểu thông thường (OLS)
Hồi quy bình phương tối thiểu thông thường (OLS) được sử dụng để ước tính hệ số trong đường xu hướng, đưa ra phương trình dự báo sau:
Trong đó:
= giá trị dự đoán của y (biến phụ thuộc) tại thời điểm t
= giá trị ước tính của hệ số chặn
= giá trị ước tính của hệ số góc
2. Hàm xu hướng tuyến tính logarit (Log-linear trend model)
Tuy nhiên, trong nhiều trường hợp, các dữ liệu chuỗi thời gian không phân phối theo đường thẳng trên đồ thị, đặc biệt là chuỗi thời gian tài chính, thường hiển thị mức tăng trưởng theo cấp số nhân (exponential growth), tức là giá trị của biến tăng/giảm một số lần (= g) nhất định theo thời gian, chứ không phải tăng trưởng tuyến tính. Vì vậy, chúng ta không thể sử dụng mô hình xu hướng tuyến tính trong tình huống này.
Khi đó, ta có thể mô hình hóa các điểm dữ liệu này bằng công thức sau:
Trong đó:
= giá trị của biến phụ thuộc tại thời điểm t
= hệ số góc (hoặc hệ số xu hướng)
= hệ số chặn
= phần tử sai số (phần dư hoặc phần tử nhiễu)
t = thời gian (biến độc lập); t = 1, 2, 3,... T
Tăng trưởng theo cấp số nhân dương (Positive exponential growth): Biến ngẫu nhiên (tức là chuỗi thời gian) có xu hướng tăng với tốc độ tăng trưởng không đổi. Nếu chúng ta vẽ biểu đồ dữ liệu, các quan sát sẽ tạo thành một đường cong lồi với > 0.
Tăng trưởng theo cấp số nhân âm (Negative exponential growth): Dữ liệu có xu hướng giảm ở một tốc độ giảm không đổi nào đó và chuỗi thời gian sẽ là một đường cong lõm với < 0.
Có thể thấy lúc này, khi biểu diễn và t lên đồ thị, các điểm dữ liệu sẽ không phân phối theo đường thẳng. Vì vậy, để có phương trình hàm xu hướng tuyến tính log, ta tiếp tục dùng phép toánđối với cả hai vế:
→ →
Vậy, khi biểu diễn và t lên đồ thị, các điểm này sẽ tuân theo một đường thẳng tuyến tính với hệ số góc là , và hệ số chặn là .
Hàm xu hướng tuyến tính log phù hợp trong trường hợp dữ liệu chuỗi thời gian phân phối theo một đường xu hướng mà tại đó các sai số có tính tương quan với nhau. Mô hình này thường được áp dụng cho các dữ liệu liên quan đến lợi suất của các khoản đầu tư trong lĩnh vực tài chính, ngân hàng.
Dù nhận định rằng hàm tuyến tính dạng loga thích hợp hơn so với hàm tuyến tính đơn giản khi các sai số có tính tương quan với nhau; tuy nhiên, chúng ta cũng có thể gặp các trường hợp mà tại đó, mô hình này cũng không thể giải quyết được vấn đề về tương quan chuỗi (serial correlation). Lúc này, ta sẽ phải sử dụng mô hình tự hồi quy (autoregressive model).
3. Mô hình tự hồi quy (Autoregressive model)
Mô hình tự hồi quy là mô hình xác định giá trị của một biến tại một giai đoạn dựa trên chính giá trị của biến đó trong (các) giai đoạn trước, ví dụ như xác định giá trị doanh thu của một doanh nghiệp cho kỳ hiện tại dựa trên chính doanh thu của kỳ trước đó.
Trong trường hợp biểu diễn giá trị của chuỗi thời gian theo giá trị của 01 giai đoạn ngay trước đó, ta có phương trình mô hình AR(1) sau:
Trong đó:
= giá trị của dữ liệu chuỗi thời gian tại thời điểm t
= giá trị của dữ liệu chuỗi thời gian tại thời điểm t-1
= hệ số góc
= hệ số chặn
= phần tử sai số
t = thời gian; t = 1, 2, 3,... T
Khái quát: mô hình AR bậc p, AR(p), được biểu diễn như sau:
Trong đó: p là số giá trị trễ mà mô hình AR sẽ bao gồm dưới dạng các biến độc lập.
3.1. Tính dừng hiệp phương sai (Covariance stationary)
Chuỗi thời gian được lập mô hình phải có tính dừng hiệp phương sai (covariance stationary) để đảm bảo rằng các suy luận thống kê dựa trên ước tính bình phương tối thiểu thông thường (OLS) cho mô hình chuỗi thời gian tự hồi quy (AR) là hợp lệ.
Một chuỗi dừng hiệp phương sai phải thỏa mãn ba yêu cầu cơ bản:
- Giá trị kỳ vọng không đổi và hữu hạn (Constant and finite expected value): Giá trị kỳ vọng của chuỗi thời gian không đổi theo thời gian:
- Phương sai không đổi và hữu hạn (Constant and finite variance): Sự biến động của chuỗi thời gian xung quanh giá trị trung bình của nó không thay đổi theo thời gian:
- Hiệp phương sai không đổi và hữu hạn giữa các giá trị ở bất kỳ độ trễ nhất định nào (Constant and finite covariance between values at any given lag): Hiệp phương sai của chuỗi thời gian với các giá trị liền trước hoặc giá trị trễ của chính nó là không đổi:
Trường hợp vi phạm điều kiện 1: Giá trị kỳ vọng có thay đổi và hữu hạn.
Trường hợp vi phạm điều kiện 2: Sự biến động của chuỗi thời gian xung quanh giá trị trung bình của nó thay đổi theo thời gian.
Trường hợp vi phạm điều kiện 3: Hiệp phương sai của chuỗi thời gian với các giá trị liền trước hoặc trễ của chính nó không phải là hằng số.
3.2. Dự báo bằng mô hình tự hồi quy
Giả sử ta có mô hình AR(1), giá trị hiện tại được cho trước và được yêu cầu dự báo , hoặc giá trị liền sau 2 giai đoạn. Để có thể dự báo , sử dụng Nguyên tắc dây chuyền của dự báo (Chain rule of forecasting):
Bước 1: Tính toán dự báo trước một kỳ cho mô hình AR(1):
Bước 2: Dùng giá trị tại bước 1 để tính toán giá trị trước 2 kỳ cho mô hình AR(1):
Lưu ý: Do quy trình dự báo được thực hiện nhiều lần nên dự báo cho nhiều kỳ thường không chắc chắn so với dự báo cho một kỳ.
3.3. Phân tích tự tương quan chuỗi (Autocorrelation analysis)
Nếu phần tử dư có mối tương quan đáng kể thì mô hình AR tạo ra phần tử dư không phải là mô hình tốt nhất cho chuỗi thời gian đang được phân tích.
Quy trình kiểm tra xem mô hình chuỗi thời gian AR có được chỉ định chính xác hay không bao gồm ba bước:
Bước 1: Ước tính mô hình AR đang được đánh giá bằng hồi quy tuyến tính: Bắt đầu với mô hình AR bậc nhất (AR(1)) sử dụng:
Bước 2: Tính toán mức độ tương quan chuỗi của phần dư của mô hình (tức là mức độ tương quan giữa các sai số dự báo từ giai đoạn này sang giai đoạn tiếp theo).
Bước 3: Kiểm tra xem các mối tương quan có khác biệt đáng kể so với 0 hay không. Nếu mô hình được chỉ định chính xác thì không có mối tương quan chuỗi nào có ý nghĩa thống kê. Các bước như sau:
Lập các giả thuyết:
(phần dư không tương quan)
(phần dư có tương quan)
Đại lượng kiểm định:
t-statistic = estimated autocorrelation/standard error
Trong đó:
T: số quan sát
: sai số chuẩn của mối tương quan
: tương quan giữa phần tư dư kỳ t và phần tử dư trễ thứ k.
Quy tắc ra quyết định: Bác bỏ H0 nếu với
→ Chuỗi thời gian có mối tương quan chuỗi (autocorrelation) với phần tử dư lỗi trễ thứ k. Do đó, mô hình AR(1) không phải là mô hình tốt nhất cho dữ liệu.
Bây giờ ta có thể cộng phần tử trễ vào mô hình và kiểm tra mô hình AR(k):
Quy trình này sẽ được thực hiện cho đến khi tất cả các mối tương quan chuỗi không còn đáng kể để mô hình AR được xác định chính xác.
3.4. Sự hoàn nguyên trung bình (Mean reversion)
Một chuỗi thời gian thể hiện sự hoàn nguyên trung bình nếu nó có xu hướng di chuyển về phía giá trị trung bình của nó.
Nói cách khác, chuỗi thời gian có xu hướng giảm khi giá trị hiện tại cao hơn giá trị trung bình và tăng khi giá trị hiện tại thấp hơn giá trị trung bình.
Giá trị hoàn nguyên trung bình (Mean-reverting level):
Nếu → Mô hình AR(1) dự đoán rằng có giá trị thấp hơn
Nếu → Mô hình AR(1) dự đoán rằng có giá trị cao hơn
Chuỗi thời gian AR(1) sẽ có mức hoàn nguyên trung bình hữu hạn khi giá trị tuyệt đối của hệ số trễ nhỏ hơn 1 (tức là ).
4. Kết quả dự báo từ mô hình chuỗi thời gian
4.1. So sánh dự báo trong mẫu và ngoài mẫu
Dự báo trong mẫu (In-sample forecast): là các dự báo được thực hiện trong phạm vi dữ liệu được sử dụng trong ước tính.
→ Để ước tính mức độ chính xác của một mô hình trong việc dự báo dữ liệu thực tế mà ta đã sử dụng để phát triển mô hình, ta sử dụng dự báo trong mẫu: phương sai sai số dự báo trong mẫu càng thấp thì mô hình càng thích hợp.
Dự báo ngoài mẫu (Out-of-sample forecast): Các dự báo được thực hiện ngoài khoảng thời gian của dữ liệu được sử dụng trong ước tính.
→ Để ước tính mức độ chính xác của một mô hình trong việc dự báo giá trị biến y trong một khoảng thời gian nằm ngoài khoảng thời gian được sử dụng để phát triển mô hình, ta sử dụng dự báo ngoài mẫu: sai số bình phương trung bình gốc (Root Mean Squared Error - RMSE) càng thấp thì mô hình càng thích hợp.
4.2. Đánh giá độ chính xác của dự báo
Một trong những vai trò quan trọng nhất của mô hình hóa là dự báo tương lai, tuy nhiên tương lai luôn nằm ngoài mẫu nên chúng ta cần đánh giá sai số dự báo ngoài mẫu của các mô hình.
Sai số bình phương trung bình gốc (Root Mean Squared Error - RMSE) của dữ liệu ngoài mẫu là một chỉ báo được sử dụng để đánh giá độ chính xác của các mô hình tự hồi quy trong các giá trị dự báo.
→ Mô hình có RMSE thấp hơn đối với dữ liệu ngoài mẫu → Mô hình có sai số dự báo thấp hơn à Mô hình này được kỳ vọng sẽ có khả năng dự đoán tốt hơn trong tương lai.
4.3. Tính bất ổn định của hệ số hồi quy
Bởi vì tính biến động liên tục của các điều kiện tài chính và kinh tế, cùng với sự khác nhau giữa các hệ số hồi quy ước tính qua các kỳ. → Chuỗi dữ liệu thời gian tài chính và kinh tế vốn thể hiện một số dạng không ổn định hoặc không cố định.
Các mô hình được ước lượng với chuỗi thời gian ngắn hơn thường ổn định hơn các mô hình có chuỗi thời gian dài hơn. → Sự cân bằng giữa độ tin cậy thống kê tăng lên khi sử dụng khoảng thời gian dài hơn và độ ổn định tăng lên của ước tính khi sử dụng khoảng thời gian ngắn hơn.
Mối quan tâm chính khi lựa chọn khoảng thời gian mẫu chuỗi thời gian là các quá trình kinh tế đang diễn ra trong thời kỳ ấy. Nếu có những thay đổi về quy định và thay đổi trong môi trường kinh tế, dữ liệu lịch sử có thể không cung cấp một mô hình đáng tin cậy.
Để xác định liệu mô hình có đáng tin cậy hay không, ta kiểm tra ý nghĩa thống kê của mức tương quan chuỗi (autocorrelation) và kiểm tra tính dừng hiệp phương sai (covariance stationary).
Nếu bạn cần thêm thông tin, đừng quên liên hệ với chúng tôi: