[CMA Part 1 - 1F] - Technology & Analytics

CHAPTER 13 - TRỰC QUAN HÓA DỮ LIỆU

Trực quan hóa dữ liệu (data visualization) trình bày việc phân tích và đánh giá dữ liệu dưới dạng trực quan. Doanh nghiệp cần xác định được các phương pháp thích hợp để trực quan hoá dữ liệu...

 

 

I.  Mục tiêu

  • Ứng dụng các thiết kế bảng biểu trong phòng tránh biến dạng (distortion) truyền đạt thông tin phức tạp.
  • Đánh giá các phương pháp trực quan hóa dữ liệu (data visualization options).
  • Xác định lợi ích và hạn chế của các kỹ thuật trực quan hóa (visualization techniques).
  • Xác định kênh hiệu quả nhất để truyền đạt kết quả (communicate results).
  • Áp dụng các kỹ thuật trực quan hóa hiệu quả để đưa ra kết luận, và đề xuất.

II.  Nội dung

Trực quan hóa dữ liệu trình bày việc phân tích và đánh giá dữ liệu dưới dạng trực quan.

Các phương pháp thích hợp để trực quan hóa dữ liệu và các kênh hiệu quả để truyền đạt kết quả và đề xuất.

1FC13.1-1

1. Định nghĩa và lợi ích

Trực quan hóa dữ liệu (data visualization) trình bày việc phân tích và đánh giá dữ liệu dưới dạng trực quan bao gồm: biểu đồ (charts), đồ thị (graphs), sơ đồ (diagrams), hình ảnh, bảng điều khiển kỹ thuật (dashboards), đồ họa thông tin (infographics), bảng, và bản đồ.

Việc trực quan hóa dữ liệu đóng vai trò rất quan trọng với doanh nghiệp, tuy nhiên cũng tồn tại những hạn chế mà doanh nghiệp không nên quá phụ thuộc vào trực quan hóa dữ liệu.

1FC13.2-1

2. Phương pháp trực quan hoá dữ liệu

Các doanh nghiệp cần có phần mềm trực quan hóa dữ liệu linh hoạt để giải quyết các nhu cầu trực quan hóa, đồng thời cần xác định được các phương pháp thích hợp để trực quan hóa dữ liệu.

Doanh nghiệp có thể áp dụng một số phương pháp trực quan hóa dữ liệu sau:

Biểu đồ Hiển thị phân phối dữ liệu số (distribution of numerical data).
Biểu đồ hộp (boxplots) Hiển thị phân phối dữ liệu bằng cách thể hiện thông số tứ phân vị (quartiles) và khoảng biến thiên của số phân tử (interquatile range).
Biểu đồ phân tán (scatterplots) Cho thấy sự tương quan giữa hai biến.
Biểu đồ chấm (dot plots) Thể hiện các giá trị rời rạc bằng các vòng tròn xếp chồng lên nhau.
Bảng Liệt kê thông tin theo hàng và cột.
Bảng điều khiển kỹ thuật (dashboards) Là chế độ xem tóm tắt các chỉ số hiệu suất (key performance indicators).
Biểu đồ thanh (bar charts) Hiển thị tỷ lệ dữ liệu giữa các đối tượng bằng các thanh ngang hoặc thanh dọc.
Biểu đồ hình tròn (Pie charts) Hiển thị tỷ lệ dữ liệu giữa các đối tượng với các lát cắt trong hình tròn.
Biểu đồ đường (line charts) Hiển thị một loạt các điểm dữ liệu cho một biến.
Biểu đồ bong bóng (bubble charts) Hiển thị điểm dữ liệu bằng bong bóng và một kích thước bổ sung của dữ liệu được thể hiện bằng kích cỡ bong bóng.

3. Truyền đạt kết quả

Xác định kênh hiệu quả nhất để sử dụng và truyền đạt kết quả cũng như đưa ra đề xuất để cải thiện quá trình ra quyết định là một bước rất quan trọng. Doanh nghiệp có thể sử dụng những cách thức sau để nâng cao quá trình truyền đạt kết quả:

1FC13.3-1

III.  Bài tập

Question 1:

A local bank is looking for any patterns in its data for which customers pay back their loans and which ones do not. The data the company has decided to use is the final disposition of the loan (paid or defaulted), the customer's income, the amount of the loan, and the proportion between those two values.

Which of the following data visualization techniques would be most suited to facilitate the recognition of any patterns present?

A. Bubble chart.

B. Pie chart.

C. Line graph.

D. Flowchart.

 

Answer:

→ The answer is choice A.

A is correct. A bubble chart is a scatter plot (a mapping of data points onto a grid according to two or more qualities of the data, one quality for each axis forming the grid (usually two). The spatial distribution of the data points enables pattern recognition such as correlation and the direction of any covariant relationship. Bubble charts are particularly useful because they can display more than two types of data without resorting to a third or higher dimensional graph through the use of symbols, color, and the size of the data points. For this example, if the bank mapped its customer's income to one axis, then the bank could use either of the other measures for the other axis, leaving the third quality to determine the size of the bubble. Either way, the bank would have an image showing which loans left customers more financially stretched relative to other customers. Coloring the dots differently to show defaults versus paid loans would help the bank discover an association between loaning a customer a higher proportion of the customer's income and the likelihood of default.

B is incorrect. A pie chart is used to show what proportion of the whole comprises each subgroup. A pie chart could be made to show the relative proportions of paid loans to defaulted loans, and a separate pie chart could show the proportions among designated segments of income, but this visualization technique would have no way to combine the two in a single image to discover patterns.

C is incorrect. A line chart is used to show a progression between observations and the trend demonstrated. The bank could use a line chart to show the changing proportions of default as income increased, but this visualization technique would have no way to represent individual loans or the other two data types called for by management.

D is incorrect. A flowchart is a diagram used to represent each step of a complex process, such as the operation or building of a computer program. Each customer could use a flowchart to decide how to allocate monthly income, including paying the loan, but the bank neither would have access to all of this information nor any way to aggregate it using this visualization technique.

 

Question 2:

Jacks Capital Inc. is putting together financial results for its annual report. Gains were reported for each month during the past year but those were completely offset by heavy losses in the last two months. If Jacks wants to show the relative cumulative incremental impact of each month's results, which of the following charts would best illustrate that?

 A. Scatter plot.

B. Flowchart.

C. Pyramid.

D. Waterfall chart.

 

Answer:

→ The answer is choice D.

D is correct. The cumulative impact of data points over time can be shown by a waterfall chart. Each point contributes to the total of all data points, with each incremental contribution shown at a given point in time. A waterfall chart is the best answer because it will show both the cumulative and incremental impact of each month's financial results for Jacks Capital. This will allow investors to see that all months, except for two, were consistent.

A is incorrect. Scatter plots are more for data sets that have a high volume and they can have overlapping time periods. They also do not show the cumulative effect of all data points.

B is incorrect. Flowcharts are for processes. They show a path from beginning to end with different options along the way. They do not show cumulative value.

C is incorrect. Pyramids are for communicating foundational relationships. The data in this example does not have this sort of relationship and does not report cumulative value.