[CMA Part 1 - 1F] - Technology & Analytics

CHAPTER 11 - QUÁ TRÌNH KHAI THÁC DỮ LIỆU

Khai thác dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định mẫu và thiết lập các mối liên hệ. Khai thác dữ liệu là một quá trình lặp đi lặp lại, đòi hỏi kỹ năng thực hiện tính toán và kiểm tra thống kê để xử lý dữ liệu...

I.  Mục tiêu

  • Xác định quá trình khai thác dữ liệu (data mining) và các thách thức.
  • Tìm hiểu lý do khai thác dữ liệu là quá trình lặp đi lặp lại.
  • Tìm hiểu cách sử dụng các công cụ truy vấn (query tools) để truy xuất thông tin.

II.  Nội dung

Khai thác dữ liệu là quá trình sử dụng các công cụ truy vấn để cung cấp thông tin cho việc ra quyết định và dự đoán xu hướng trong tương lai.

Bên cạnh đó, việc khai thác dữ liệu cũng tồn tại một số thách thức bởi ảnh hưởng từ nhiều yếu tố.

1FC11.1-1

1. Khai thác dữ liệu (Data mining)

a. Định nghĩa

Khai thác dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định mẫu (patterns) và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu.

Khai thác dữ liệu liên quan đến các phương pháp thống kê, khoa học máy tính, trí tuệ nhân tạo, và công nghệ tính toán để phân tích một lượng lớn dữ liệu nhằm trích xuất thông tin hữu ích về các mối liên hệ, xu hướng, mô hình và các điểm bất thường cho việc ra quyết định và dự đoán xu hướng trong tương lai.

b. Đặc điểm

Khai thác dữ liệu là một quá trình lặp đi lặp lại (iterative process), đòi hỏi kỹ năng thực hiện các tính toán và kiểm tra thống kê để xử lý dữ liệu; đồng thời có những đặc điểm sau:

1FC11.2-1

Ví dụ:

    • Ngôn ngữ truy vấn cơ sở dữ liệu (Structured Query Language) là ngôn ngữ lập trình tiêu chuẩn được sử dụng để thực hiện các chức năng khác nhau với cơ sở dữ liệu như thao tác, xác định, và truy cập dữ liệu.
    • Quá trình khai thác dữ liệu được sử dụng trong việc xác định xu hướng bán hàng hoặc dự đoán thói quen mua hàng của người tiêu dùng thông qua việc xác định mối liên hệ hoặc phân tích giỏ thị trường (market basket), cung cấp cho doanh nghiệp thông tin về những mặt hàng nào được mua cùng nhau.

2. Thách thức của việc khai thác dữ liệu

Quá trình khai thác dữ liệu có thể trở thành một thử thách vì nhiều lý do:

1FC11.3-1

III.  Bài tập

Question 1:

Which of the following statements concerning data mining is (are) correct?

I. Data mining is the analysis of data in a data warehouse performed in order to attempt to discover hidden patterns and trends in business.

II. Data mining assists managers in making business decisions and strategic planning.

III. Although it will take a little longer without a computer, a manager would be able to perform data mining analysis manually.

A. I and II.

B. I and III.

C. II and III.

D. I, II, and III.

 

Answer:

→ The answer is choice A

A is correct. Statements I and II are correct.

Statement 1: This is a true statement. A major use of data warehouse databases is data mining. Data mining is the analysis of data in a data warehouse in order to attempt to discover hidden patterns and trends in historical business activities.

Statement II: This is a true statement. Data mining would help managers understand the changes that are occurring in a business and would also assist in making strategic business decisions in order to attempt to get a competitive advantage in the marketplace.

Statement III is a false statement. Data mining is used to sift through large amounts of data, sometimes several terabytes of information. Without the use of a computer, a person would never be able to analyze this much data and uncover trends using algorithms and other mathematical and statistical procedures.

B, C, and D are incorrect, per the above explanation.

 

Question 2:

Analysis of large and diverse amounts of data included in data warehouses is often referred to as:

A. Systems analysis.

B. Electronic Data Interchange (EDI).

C. Data mining.

D. Data processing.

 

Answer:

→ The answer is choice C

C is correct. Data mining refers to the process of sifting through large amounts of data, impossible to analyze by individuals, to search for relationships amongst various data as a means for achieving strategic or competitive advantage.

A is incorrect. ystems analysis is the analytical evaluation of the manner in which systems process data.

B is incorrect. Electronic Data Interchange (EDI) is the transfer of data between various systems in machine-readable formats.

D is incorrect. Data processing is a generic term that describes the methods and systems used to collect and process data and produce outputs.