[CMA Part 1 - 1F] - Technology & Analytics

CHAPTER 12 - CÔNG CỤ PHÂN TÍCH

Mô hình phân tích là một cách tiếp cận dựa trên kinh nghiệm hoặc dữ liệu để xác định các mối liên hệ, tác động, và kết quả. Hồi quy là phương pháp phân tích dữ liệu nhằm phân tích mối tương quan giữa biến phụ thuộc với các biến độc lập...

I.  Mục tiêu

  • Giải thích thách thức của việc áp dụng mô hình phân tích vào dữ liệu.
  • Xác định các phương pháp phân tích dữ liệu (data analytics) và các mô hình phân tích (analytic models).
  • Xác định phương trình phân tích hồi quy tuyến tính đơn giản (simple regression equations) và phương trình phân tích hồi quy tuyến tính đa biến (multiple regression equations).
  • Mô tả hệ số xác định (R2) và hệ số tương quan (R).
  • Mô tả về phân tích dãy số thời gian (time series analyses) và phân tích hồi quy.
  • Mô tả phân tích khám phá dữ liệu (exploratory data analysis), phân tích độ nhạy (sensitivity analysis) và việc sử dụng các mô hình mô phỏng (simulation models).

II.  Nội dung

Trong bài học này chúng ta sẽ tìm hiểu về:

Các mô hình phân tích giúp doanh nghiệp hiểu được cách một nhân tố ảnh hưởng đến nhân tố khác.

Phân tích dữ liệu được chia thành 4 loại (miêu tả, chẩn đoán, dự đoán, và đề xuất).

Các kỹ thuật phân tích dữ liệu khác nhau được sử dụng để xác định các mẫu và các mối liên hệ, kiểm tra các giả thuyết (hypotheses) và dự đoán kết quả trong tương lai.

1FC12.1-1

1. Mô hình phân tích (Analytic models)

Mô hình phân tích là một cách tiếp cận dựa trên kinh nghiệm hoặc dữ liệu để xác định các mối liên hệ, tác động, và kết quả; đưa ra hiểu biết chuyên sâu (insight) bằng cách xác thực các kỹ thuật thống kê và cung cấp các ước tính về quy mô ảnh hưởng (effect sizes).

Giá trị của phân tích dữ liệu có thể bị giới hạn bởi:

1FC12.2-1

2. Phương pháp phân tích dữ liệu

Có 4 phương pháp phân tích dữ liệu đề xuất phương hướng hành động tốt nhất: 

1FC12.3-1

Ví dụ:

  • Phân tích mô tả:
    • Một công ty Kiểm toán sẽ biết được có bao nhiêu khách hàng ký kết hợp đồng vào tháng trước.
    • Một công ty sản xuất có thể quyết định các danh mục sản phẩm chính dựa trên phân tích doanh thu, doanh thu hàng tháng của từng nhóm sản phẩm, tổng nguyên liệu dùng để sản xuất sản phẩm trong một tháng,…
  • Phân tích chẩn đoán có thể khám phá mối liên hệ giữa marketing và bán hàng hoặc giữa hàng tồn kho và bán hàng để các nhà quản lý hiểu được mối liên hệ giữa các sự kiện xảy ra.
  • Phân tích dự đoán có thể hỗ trợ doanh nghiệp xác định những người mua hàng trong tháng tới để tiến hành kích hoạt các hoạt động tiếp thị nhằm phát triển doanh thu hoặc một nhóm quản lý có thể cân nhắc các rủi ro khi quyết định đầu tư vào việc mở rộng của công ty dựa trên phân tích dòng tiền và dự báo dòng tiền thu được.
  • Phân tích đề xuất: một công ty đa quốc gia có thể xác định cơ hội khách hàng sẽ mua lại một sản phẩm nhất định dựa trên phân tích khách hàng và lịch sử bán hàng.

3. Kỹ thuật phân tích dữ liệu

a. Phân cụm (Clustering)

Phân cụm là một kỹ thuật phân tích dữ liệu liên quan đến việc các đối tượng được nhóm dựa trên sự giống nhau.

Đặc điểm của kỹ thuật phân cụm:

1FC12.4-1

b. Phân loại (Classification)

Phân loại là một kỹ thuật phân tích dữ liệu nhằm tìm kiếm hoặc khám phá một mô hình hoặc chức năng giúp tách dữ liệu thành nhiều lớp phân loại, tức là các giá trị rời rạc.

Phân loại thường bắt đầu với việc xác định trước các danh mục sau đó sắp xếp từng mục riêng lẻ vào một trong các danh mục đó.

c. Hồi quy (Regression)

Hồi quy là phương pháp phân tích dữ liệu nhằm phân tích mối tương quan giữa biến phụ thuộc (dependent variable) với các biến giải thích (explanatory variables) hoặc các biến độc lập (independent variables). Phương pháp phân tích hồi quy xem xét các giá trị của các biến số và ước lượng về mối tương quan giữa biến phụ thuộc và biến độc lập.

    • Phương trình hồi quy:
      • Hồi quy tuyến tính đơn giản: Y = b0 + b1 x X
      • Hồi quy tuyến tính đa biến: Y = b0 + b1 x X1 + b2 x X2 + ... + bn x Xn (n≥2)
    • Phân loại:
      • Hồi quy tuyến tính (Linear regression) được sử dụng khi biến phụ thuộc (Y) là định lượng (quantitative).
        Ví dụ: Sử dụng khi tính tổng chi phí của một doanh nghiệp.
      • Hồi quy logistic (Logistic regression) sử dụng toán học để tìm ra mối liên hệ giữa hai yếu tố dữ liệu, áp dụng khi Y là phân loại (categorical).
        Ví dụ: Ngân hàng sử dụng hồi quy logistic để xác định có thể vỡ nợ hay không với một khoản vay.
    • Hạn chế của phương pháp phân tích hồi quy:
      • Chỉ nên được sử dụng để đưa ra dự đoán trong phạm vi cho phép.
      • Bị ảnh hưởng bởi dữ liệu ngoại lai (outliers) và giá trị cực (extreme values) không giống với các quan sát khác.

Mức độ phù hợp của đường hồi quy với dữ liệu quan sát được đo lường bằng những hệ số sau:

1FC12.5-1

Ngoài ra, phân tích hồi quy cũng cung cấp các phương pháp thống kê hữu ích khác:

1FC12.6-1

d. Chuỗi thời gian (Time series)

Chuỗi thời gian là phương pháp phân tích dữ liệu xem xét các điểm dữ liệu theo thời gian. Thứ tự thời gian của các điểm dữ liệu cho phép xác định các mẫu, hỗ trợ dự đoán các giá trị trong tương lai.

Xu hướng cung cấp thông tin hữu ích giúp dự đoán kết quả trong tương lai dựa trên dự liệu trong quá khứ. Các xu hướng phổ biến bao gồm:

    • Xu hướng có hệ thống (systematic trends)
    • Xu hướng theo chu kỳ (cyclical trends)
    • Xu hướng theo mùa (seasonal trends)
    • Xu hướng bất thường (irregular trends)

e. Các kỹ thuật phân tích dữ liệu khác

1FC12.7-1

III.  Bài tập

Question 1:

The primary difference between the coefficient of correlation and the coefficient of determination is that:

A. The coefficient of determination may be either negative or positive depending upon the slope of computed trends.

B. The coefficient of determination refines the coefficient of correlation.

C. The coefficient of correlation refines the coefficient of determination.

D. The coefficient of determination is always negative.

 

Answer:

→ The answer is choice B

B is correct. The coefficient of determination (R2) is a refinement of the coefficient of correlation (R). The coefficient of correlation measures the strength of a linear relationship, positive or negative, while the coefficient of determination explains the proportion of the variation in the dependent variable caused by the independent variable.

A is incorrect. The coefficient of determination (R2) is always positive.

C is incorrect. The coefficient of determination (R2) is a refinement of the coefficient of correlation (R).

D is incorrect. The coefficient of determination (R2) is always positive.

 

Question 2:

The OutdoorPeople Co. has identified several subgroups among the company's customer base. These groups have particular combinations of age, wealth, geographic location, etc. The company is about to release a new product and it wants to measure how much of an effect the customer's wealth has on buying the product after viewing the advertising message(s) for the product. What kind of analysis will be most useful to answer OutdoorPeople's need for information?

A. Cluster analysis.

B. Regression analysis.

C. Fourrier analysis.

D. Classification analysis.

 

Answer:

→ The answer is choice B

B is correct. Regression analysis uses statistics software to discover and quantify the relationship between a dependent variable and one or more independent variables. The resulting coefficients can be used to predict values of the dependent variable from any values the independent variable may have in the future. OutdoorPeople wants to know if it can predict how likely a customer is to buy its product based on the customer's wealth. After performing a successful regression analysis, OutdoorPeople will have a regression equation that will contain this information.

A is incorrect. Cluster analysis is used to identify subgroups within a larger group based on shared characteristics. OutdoorPeople has already identified subgroups but is asking a question across all its subgroups. Cluster analysis will not answer that question.

C is incorrect. Fourrier analysis is used to represent a repeating waveform as a series of trigonometric functions so that repeating oscillating phenomena (such as sound, light, heat, etc.) can be mathematically reproduced and compared. Fourrier analysis is unlikely to be of any help to OutdoorPeople.

D is incorrect. Classification analysis is used to place newly encountered data into subgroups already established by cluster analysis. OutdoorPeople already has clusters, but they are not being used in this study, and no new customers are being classified into existing clusters.