Vòng đời của dữ liệu là sự thể hiện các giai đoạn mà dữ liệu trải qua từ khi được thu thập đến khi lưu trữ hoặc xóa bỏ hoàn toàn. Lưu trữ dữ liệu được kiểm soát bởi chính sách lưu trữ hồ sơ tài liệu (documented record retention policy)...
I. Mục tiêu
- Xác định các giai đoạn của vòng đời dữ liệu (life cycle of data).
- Mô tả về tiền xử lý dữ liệu (data preprocessing) và các bước chuyển đổi dữ liệu.
- Bàn luận về tầm quan trọng của việc lưu trữ hồ sơ tài liệu.
II. Nội dung
Trong bài học này chúng ta sẽ tìm hiểu về:
Các giai đoạn khác nhau của vòng đời dữ liệu và tầm quan trọng của các chính sách lưu trữ dữ liệu.
Ngoài ra, bài học thảo luận về các bước tiền xử lý dữ liệu, bao gồm các bước giúp dữ liệu sẵn sàng cho việc phân tích.
1. Vòng đời dữ liệu
a. Định nghĩa
Vòng đời của dữ liệu là sự thể hiện các giai đoạn mà dữ liệu trải qua từ khi được thu thập đến khi lưu trữ hoặc xóa bỏ hoàn toàn.
b. Các giai đoạn của vòng đời dữ liệu
Thu thập dữ liệu (Data capture) |
Dữ liệu được thu thập thông qua nhiều phương tiện như nhập thủ công, nhập tự động hoặc thu thập từ nguồn bên ngoài. |
Bảo trì dữ liệu (Data maintenance) |
Làm sạch dữ liệu và đưa dữ liệu vào cấu trúc giúp dữ liệu thân thiện với người dùng đối với hệ thống và phần mềm. |
Tổng hợp dữ liệu (Data synthesis) |
Kết hợp kinh nghiệm, phán đoán hoặc quan điểm đưa ra diễn giải hợp lý về dữ liệu hiện có. |
Sử dụng dữ liệu (Data usage) |
Truy cập và sử dụng dữ liệu trong hoạt động và quy trình kinh doanh của doanh nghiệp tuân theo chính sách và quy tắc quản trị dữ liệu. |
Phân tích dữ liệu (Data analytics) |
Dữ liệu được đưa vào các mô hình phân tích để nhận dạng và đánh giá các mối tương quan và liên kết mẫu. |
Công bố dữ liệu (Data publication) |
Cung cấp dữ liệu ra bên ngoài doanh nghiệp. |
Lưu trữ dữ liệu (Data archiving) |
Dữ liệu được lưu trữ để sử dụng trong tương lai |
Xóa dữ liệu (Data purging) |
Dự liệu được xóa vĩnh viễn hoặc loại bỏ dữ liệu. |
Ví dụ:
- Tổng hợp dữ liệu: sử dụng các phương pháp mô hình hóa để hỗ trợ các quyết định đầu tư, chẳng hạn như mô hình hóa rủi ro, mô hình tài chính và mô hình tính toán.
- Lưu trữ dữ liệu: theo Quyết định 376/2003/QĐ-NHNN về việc bảo quản, lưu trữ chứng từ điện tử dùng để hạch toán và thanh toán vốn của tổ chức cung ứng dịch vụ thanh toán, chứng thư điện tử liên quan trực tiếp đến hồ sơ kế toán tại tổ chức cung ứng dịch vụ thanh toán: phải được lưu giữ 20 năm kể từ ngày kết thúc niên độ kế toán hoặc khi tổ chức cung ứng dịch vụ thanh toán hoàn thành việc quyết toán vốn.
2. Tiền xử lý dữ liệu (Data preprocessing)
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu từ dạng thô sang dạng có thể hiểu được để đưa vào phân tích. Quá trình này thường tốn nhiều thời gian và công sức hơn so với phân tích dữ liệu.
Quá trình gồm 4 bước sau:
Ví dụ:
- Chuyển đổi dữ liệu: dữ liệu được tổng hợp để làm giảm sự biến động dữ liệu như việc doanh số hàng ngày có thể được chuyển thành dữ liệu hàng tháng.
- Giảm dữ liệu: doanh nghiệp có thể sử dụng kỹ thuật thống kê phân tích thành phần chính (principal component analysis) để tạo ra biến mới bằng cách kết hợp một số biến liên quan thông qua việc chỉ số về sự hài lòng của khách hàng có thể được đánh giá bằng cách kết hợp thái độ của khách hàng đối với doanh nghiệp, sản phẩm, danh tiếng và dịch vụ khách hàng.
3. Lưu trữ dữ liệu
Lưu trữ dữ liệu được kiểm soát bởi chính sách lưu trữ hồ sơ tài liệu (documented record retention policy). Chính sách cung cấp khuôn khổ về quá trình lưu trữ dữ liệu bắt đầu từ khi dữ liệu được tạo ra, ghi lại, duy trì, truy cập, xóa và lưu trữ.
Vai trò của chính sách lưu trữ hồ sơ tài liệu:
*Thông tin chiến lược quan trọng của doanh nghiệp bao gồm lịch sử hoạt động kinh doanh, là nguồn tài nguyên quý giá để đánh giá các quy trình kinh doanh và hiệu quả tài chính.
III. Bài tập
Question 1:
Data preprocessing falls in which stage of the data life cycle?
A. Capture.
B. Maintenance.
C. Synthesis and analytics.
D. Purging.
Answer:
→ The answer is choice C
C is correct. Data preprocessing is converting information into a form that adds value through consolidation, reduction, and transformation. When consolidating files, similar data points are aggregated into a single file that can require a cleansing step (usually a maintenance activity), removing things such as inaccurate data, incomplete fields, or duplication records. That data is then transformed into its new enhanced state. Because data preprocessing transforms data, synthesizing it, it fits in the synthesis and analytics phase of the data life cycle.
A is incorrect. Data capture involves the initial obtainment of information, not adding value once it has been captured.
B is incorrect. Data maintenance focuses on the extract, transfer, cleansing, and load phase of the life cycle, not the value-added phase.
D is incorrect. Data purging is the final phase that deals with the removal of data, not transforming it in the synthesis phase.
Question 2:
Optimum Financial Planners publishes investment research for several different industries and has a team of financial planners that advise hundreds of clients. It administers quarterly surveys to determine investor expectations and trends that it then uses to give to its planners so they can give investment advice. Optimum recently found an error in the survey collection. In which phase of the data life cycle will this be addressed since the data has already been released?
A. Data capture.
B. Data synthesis.
C. Data publication.
D. Data archival.
Answer:
→ The answer is choice C
C is correct. Data publication is the phase in which information is disseminated to other individuals, both internally and externally. It is the fifth step in the cycle after usage and prior to archiving and purging. While this question does mention data capture through the administration of a survey, the question specifically asks about information that has already been published to others. Managing miscommunications of inaccurate data to employees and customers falls within the publication phase.
A is incorrect. Data capture does take place in this example, but the problem is asking about information that has already gone through that phase and has been disseminated.
B is incorrect. Data synthesis is the phase in which data has value added and is transformed, not information that is already in its transformed state.
D is incorrect. Data archival refers to data that has already been captured, synthesized, and publicized.