[Tổng hợp các kiến thức cơ bản] Module 7: Big Data projects

Big Data là các tập dữ liệu có khối lượng lớn và phức tạp mà các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.

Về mặt nền tảng kiến thức, người học cần nắm được đặc trưng của big data, phân loại và các quá trình liên quan đến kiểu dữ liệu này.

1. Đặc trưng và phân loại

1.1. Đặc trưng

Big data được đặc trưng bởi 3 khía cạnh chính (3-Vs): khối lượng (volume), sự đa dạng (variety), và tốc độ (velocity).

Khối lượng (volume): Big data chỉ các tập dữ liệu với khối lượng khổng lồ.
Sự đa dạng (variety): Big data là các tập dữ liệu được thu thập từ các nguồn rất đa dạng: do người dùng tạo ra, giao dịch truyền thống, thư điện tử, hình ảnh, lượt click chuột,.. Việc thu thập big data vì vậy mang lại nhiều cơ hội nhưng đem đến nhiều vấn đề đáng lưu tâm, đáng kể đến nhất là việc xâm phạm quyền riêng tư cá nhân.
Tốc độ (velocity): chỉ tốc độ mà dữ liệu được tạo ra và được thu thập lại.

Trong trường hợp dữ liệu được sử dụng cho mục đích suy luận và dự báo, khía cạnh cuối cùng là tính xác thực (veracity). Tính xác thực liên quan đến độ tin cậy của các nguồn dữ liệu khác nhau. Vì big data đến từ nhiều nguồn đa dạng, nên việc tìm hiểu và đảm bảo tính xác thực của dữ liệu là điều vô cùng cần thiết.

1.2. Phân loại

Dữ liệu có cấu trúc (Structured data): là các dữ liệu đã được xử lý và sắp xếp theo hàng và cột.
Dữ liệu không có cấu trúc (Unstructured data): là các dữ liệu chưa được sắp xếp, và các thuật toán machine learning buộc phải lần lượt kiểm tra các dữ liệu gây nhiễu (noise) để nhặt thông tin.

2. Quá trình phân tích dữ liệu

2.1. Phân tích dữ liệu có cấu trúc

Bước 1: Khái quát hóa mục tiêu của mô hình (Conceptualization of the modeling task)

Ở bước này, chúng ta cần phải chỉ ra được vấn đề cần giải quyết (1), đầu ra của mô hình (2), mô hình sẽ được sử dụng như thế nào và đối tượng sử dụng là ai (3), và liệu mô hình này có sẽ được tích hợp trong quy trình kinh doanh nào hay không? (4)

Bước 2: Thu thập dữ liệu (Data collection)

Đối với dự báo tài chính, thông thường, dạng dữ liệu số được thu thập từ nguồn dữ liệu nội bộ và cũng như từ bên ngoài. Nhà phân tích cần xác định nguồn thông tin nào nên được sử dụng để thu thập những dữ liệu này

Bước 3: Chuẩn bị và xử lý dữ liệu (Data preparation and wrangling)

Ở bước này, nhà nghiên cứu cần phải làm sạch bộ dữ liệu để đưa vào mô hình. Làm sạch bộ dữ liệu, tức là việc xử lý các dữ liệu bị bỏ trống, và xác minh các dữ liệu đang nằm ngoài giới hạn cho phép (out-of-range data). Tiền xử lý dữ liệu (preprocessing) chính là việc tổng hợp, lọc và trích xuất các biến số liên quan.

Bước 4: Thăm dò dữ liệu (Data exploration)

Lựa chọn các biến (features) và xử lý.

Phân tích dữ liệu ban đầu

Bước 5: Huấn luyện mô hình (Model training)

Xác định thuật toán Machine learning phù hợp, đánh giá mô hình bằng tập dữ liệu huấn luyện, và tiến hành tinh chỉnh mô hình. Việc lựa chọn mô hình phụ thuộc vào bản chất mối quan hệ giữa các biến độc lập (feature) và biến phụ thuộc (target variable).

2.2. Phân tích dữ liệu không có cấu trúc

Dữ liệu không có cấu trúc có thể là những đoạn văn bản gồm những thông tin ví dụ như tên riêng, địa chỉ, số điện thoại và email,... Những dữ liệu này có thể được nhận diện, tuy nhiên chúng không được cấu trúc theo dạng tiêu chuẩn như mục nhập cơ sở dữ liệu. Vì vậy trước khi phân tích những dữ liệu không có cấu trúc như vậy, ta cần các bước xử lý dữ liệu.

Bước 1: Xây dựng vấn đề của việc phân tích xử lý văn bản

Xác định vấn đề cần giải quyết, đầu vào và đầu ra của mô hình, và đầu ra sẽ được sử dụng như thế nào.

Bước 2: Thu thập dữ liệu (chọn lọc)

Xác định nguồn dữ liệu phù hợp và có liên quan. Nếu sử dụng thuật toán học có giám sát, cần chú thích một biến mục tiêu đáng tin cậy.

Bước 3: Sàng lọc và xử lý dữ liệu

Làm sạch và xử lý trước dữ liệu để chuyển đổi các luồng dữ liệu phi cấu trúc thành định dạng có thể sử dụng được bằng các phương pháp lập mô hình truyền thống được thiết kế cho dữ liệu đầu vào có cấu trúc.

Bước 4: Thăm dò dữ liệu văn bản

Trực quan hóa dữ liệu văn bản, lựa chọn đặc điểm từ dữ liệu văn bản, xử lý thông tin.

Sau đó, đầu ra của một mô hình sử dụng dữ liệu phi cấu trúc có thể được sử dụng riêng biệt hoặc kết hợp với các biến có cấu trúc khác làm đầu vào cho một mô hình khác.

Sơ đồ hóa quy trình xây dựng mô hình dự báo tài chính sử dụng big data:

3. Chuẩn bị và sàng lọc dữ liệu

3.1. Khái quát hóa và thu thập/quản lý dữ liệu

Bước khái quát hóa (Conceptualization) có thể được hình dung như một bản vẽ khái quát, kế hoạch cần thiết để có thể bắt đầu quá trình xây dựng mô hình. Bước này bao gồm các công việc như xác định vấn đề, mục tiêu, xác định các dữ liệu cần thiết, khái niệm hóa mô hình.

Bước thu thập dữ liệu (Data collection) bao gồm việc lấy về những dữ liệu từ nguồn nội bộ và bên ngoài. Dữ liệu từ nguồn ngoài có thể chứa những rủi ro nhất định, tuy nhiên sẽ tiết kiệm thời gian và chi phí cho công đoạn sàng lọc dữ liệu.

3.2. Chuẩn bị dữ liệu có cấu trúc

3.2.1. Làm sạch dữ liệu (Data cleansing) cho dữ liệu có cấu trúc

Đây là bước đầu tiên và phổ biến nhất trong việc chuẩn bị dữ liệu thô. Làm sạch dữ liệu là quá trình kiểm tra, xác định và giảm thiểu sai sót trong dữ liệu thô.

Những lỗi cần giảm thiểu trong dữ liệu thô:

Dữ liệu không hợp lệ (Invalidity error)
Dữ liệu không đồng nhất (Non uniformity error)
Dữ liệu không hoàn chỉnh (Incompleteness error)
Dữ liệu lặp (Duplication error)
Dữ liệu không chính xác (Inaccuracy error)
Dữ liệu không nhất quán (Inconsistency error)

3.2.2. Tiền xử lý dữ liệu (Data preprocessing) cho dữ liệu có cấu trúc

Đây là bước biến đổi và xử lý dữ liệu cần thiết cho dữ liệu đã làm sạch để dữ liệu có thể sẵn sàng được đưa vào huấn luyện mô hình ML.

Biến đổi dữ liệu (Data transformation)
- Trích xuất dữ liệu (Extraction)
- Tổng hợp (Aggregation)
- Lọc (Filtration)
- Chọn (Selection)
- Chuyển đổi (Conversion)
Loại bỏ các dữ liệu ngoại lai (Removal of outlier)
- Cắt tỉa (Trimming)
- Gán dữ liệu hợp lệ gần nhất (Winsorization)
Xác định tỷ lệ (Scaling)
- Bình thường hóa (Normalization)
- Chuẩn hóa (Standardization)

Các bước biến đổi thông thường:

Bước 1: Trích xuất dữ liệu (Extraction)

Một biến có thể được trích xuất từ biến hiện tại để thuận tiện hơn trong việc phân tích và sử dụng trong việc huấn luyện mô hình.

Bước 2: Tổng hợp (Aggregation)

Hai hoặc nhiều biến có thể được gộp vào thành 1 biến để tổng hợp những biến tương tự nhau

Bước 3: Lọc (Filtration)

Dữ liệu không cần thiết cho dự án phải được xác định và lọc ra

Bước 4: Chọn (Selection)

Dữ liệu trực quan không cần thiết cho dự án có thể bị xóa.

Bước 5: Chuyển đổi (Conversion)

Các biến có thể ở dạng khác nhau: danh nghĩa (nominal), thứ tự (ordinal), liên tục (continuous), phân loại (categorical) → Cần được chuyển đổi về dạng phù hợp để xử lý và phân tích trong mô hình.

Các cách xử lý dữ liệu ngoại lai:

Cách 1: Trimming - những dữ liệu cực đại và ngoại lai sẽ được loại bỏ từ bộ dữ liệu

Cách 2: Winsorization - các giá trị cực đại có thể được thay thế bởi giá trị lớn nhất/nhỏ nhất được chấp nhận cho biến đó.

Một số thuật toán ML (ví dụ neural networks, SVM) cần các biến đặc điểm ở dạng đồng nhất (nghĩa là các giá trị đặc điểm phải ở trong cùng 1 khoảng). Vì vậy, scaling là việc biến đổi đặc điểm dữ liệu sang một thang đo thông dụng hơn.

Cách 1: Normalization - quá trình biến đổi biến số sang dạng thang đo trong khoảng từ 0 đến 1

Nhạy cảm với các dữ liệu ngoại lai, do đó việc xử lý các dữ liệu này là cần thiết trước khi thực hiện chuẩn hóa.

Cách 2: Standardization - quá trình xác định căn giữa và chia tỷ lệ biến

Ít nhạy cảm hơn với các giá trị ngoại lai vì nó phụ thuộc vào giá trị trung bình và độ lệch chuẩn của dữ liệu nhưng giả định rằng biến đó có phân phối chuẩn.

3.3. Chuẩn bị dữ liệu phi cấu trúc

Vì máy tính không thể đọc dữ liệu dạng chữ, nên dữ liệu cần được làm sạch và token hóa (tokenized)

3.3.1. Làm sạch văn bản

Dữ liệu văn bản thô là một chuỗi những ký tự và chứa những yếu tố không cần thiết, gồm thẻ html, dấu câu và các khoảng trống. Vì vậy ta cần làm sạch văn bản bằng cách loại bỏ những yếu tố không cần thiết đó khỏi dữ liệu văn bản. Làm sạch dữ liệu văn bản bao gồm 4 bước như sau:

Bước 1: Loại bỏ thẻ html: Văn bản thu được từ các trang web có chứa thẻ html, cần được loại bỏ trước khi xử lý

Bước 2: Loại bỏ dấu câu: Một số dấu câu có thể cần trong việc phân tích, nếu vậy cần thay thế bằng các ký hiệu khác (các diễn đạt khác) để sử dụng trong huấn luyện mô hình

Bước 3: Loại bỏ số: Các ký tự được loại bỏ và thay thế bằng ký hiệu (/number/). Nếu giá trị của số quan trọng trong việc phân tích, những giá trị đó sẽ được trích xuất đầu tiên thông qua các ứng dụng văn bản

Bước 4: Loại bỏ khoảng trắng: Định dạng khoảng trắng (ví dụ như tabs, lùi đầu dòng) không có mục đích trong việc xử lý văn bản và sẽ được loại bỏ

3.3.2. Sắp xếp dữ liệu

Một token tương đương với 1 từ, và token hóa là quá trình phân tách một văn bản thành các token riêng biệt.

Quá trình chuẩn hóa (Normalized) bao gồm 4 bước:

Bước 1: Viết thường - bảng chữ cái loại bỏ sự khác biệt về viết hoa và viết thường của các từ ngữ

Bước 2: Loại bỏ các từ dừng (stop words) - Các từ dừng là những từ phổ biến như "the, is, a...", được loại bỏ để giảm số lượng các token cần phải xử lý

Bước 3: Lấy gốc từ (Stemming) - là thuật toán có quy tắc, quy đổi các biến thể của một từ về một giá trị gốc. Stemming khiến văn bản trở nên khó hiểu đối với người đọc, nhưng lại vô cùng phù hợp với máy móc

Bước 4: Bổ đề (Lemmatization) - là quá trình chuyển đổi các dạng biến cách của một từ thành gốc hình thái của nó (được gọi là bổ đề). Nó tương tự như Stemming nhưng phức tạp hơn về mặt tính toán và sử dụng nhiều tài nguyên hơn.

Bước cuối cùng của xử lý văn bản là sử dụng gói từ (Bag of words) để xây dựng một ma trận thuật ngữ (Document term matrix)

Ma trận thuật ngữ: là ma trận tương tự như bảng dữ liệu cho dữ liệu có cấu trúc và được sử dụng rộng rãi cho dữ liệu văn bản. Mỗi hàng của ma trận thuộc về một tài liệu (hoặc tệp văn bản) và mỗi cột đại diện cho một token (hoặc thuật ngữ).

Đặc điểm của DTM:

Số dòng = số nguồn tài liệu
Số cột = Số token trong một gói từ chuẩn hóa

Trong trường hợp một chuỗi văn bản có vai trò quan trọng, N-grams có thể được sử dụng để đại diện cho một chuỗi từ. Chuỗi 2 từ gọi là bigram, 2 từ gọi là trigram,... Việc sử dụng N-gram có thể ảnh hưởng tới việc chuẩn hóa BOW vì từ dừng sẽ không bị loại bỏ.

3.4. Thăm dò dữ liệu có cấu trúc

Thăm dò dữ liệu (Data exploration) là một phần quan trọng của dự án big data, nhằm kiểm tra và phân tích bộ dữ liệu để hiểu về cấu trúc, khuôn mẫu, các mối liên hệ và insight có thể có.

3.4.1. Phân tích dữ liệu thăm dò (Exploratory data analysis):

EDA liên quan đến việc xem xét các bộ mô tả dữ liệu như số liệu thống kê tóm tắt, bản đồ nhiệt, đám mây từ, v.v. EDA có thể được thực hiện bằng 1 đặc điểm (1 chiều) hoặc nhiều đặc điểm (đa chiều)

Với mỗi đặc điểm, các thông số có thể bao gồm trung bình, độ lệch chuẩn, độ nghiêng và độ nhọn của phân phối → Trực quan hóa EDA bao gồm biểu đồ hình hộp, biểu đồ tần suất, biểu đồ mật độ và biểu đồ cột.

Đối với nhiều đặc điểm, các mô hình giảm kích thước như phân tích thành phần chính (PCA) có thể tạo điều kiện thuận lợi cho việc khám phá dữ liệu. Các thông số thống kê có thể bao gồm ma trận tương quan. Dữ liệu có thể được trực quan háo bằng biểu đồ hình hộp, biểu đồ phân tán, biểu đồ cột chồng và biểu đồ đường.

Mục tiêu của EDA bao gồm:

Hiểu về các tính chất của dữ liệu, phân bố và các đặc điểm khác
Tìm kiếm các khuôn mẫu và mối quan hệ, đánh giá các câu hỏi cơ bản và các giả định
Lên kế hoạch cho việc mô hình hóa trong các bước sau này.

3.4.2. Lựa chọn đặc điểm (Feature selection)

Feature selection là một quá trình chỉ chọn các thuộc tính cần thiết của dữ liệu để đào tạo mô hình ML. Càng nhiều đặc điểm được chọn, mô hình càng phức tạp và yêu cầu nhiều thời gian huấn luyện.

Ta chỉ chọn các đặc điểm đóng góp vào khả năng dự đoán ngoài mẫu của mô hình → điều cần thiết là xác định và loại bỏ các đặc điểm không cần thiết, không liên quan và dư thừa. Các phương pháp phổ biến là đo lường thống kê và giảm kích thước.

Đo lường thống kê (Statistical measure): Chỉ định một số điểm đánh giá tầm quan trọng của từng tính năng. Sau đó, các tính năng có thể được xếp hạng bằng cách sử dụng điểm này và được giữ lại hoặc loại bỏ khỏi tập dữ liệu.
Giảm kích thước (Dimensionality reduction): Xác định các đặc điểm trong dữ liệu tạo ra sự khác biệt lớn nhất giữa các quan sát và cho phép xử lý khối lượng dữ liệu ít hơn.

3.4.3. Xây dựng đặc điểm (Feature engineering)

Feature engineering là quá trình tạo ra các đặc điểm mới bằng cách chuyển đổi, phân tách hoặc kết hợp nhiều đặc điểm. Ngoài ra, ta có thể trích xuất đặc điểm, nghĩa là một đặc điểm mới sẽ được tạo ra từ bộ dữ liệu.

Feature engineering liên quan đến việc tối ưu hóa và cải thiện các tính năng đã chọn để tạo ra các đặc điểm tốt, mô tả các cấu trúc vốn có trong tập dữ liệu.

Feature engineering bao gồm việc phân tách một đặc điểm thành nhiều đặc điểm hoặc chuyển đổi một đặc điểm hiện có thành một đặc điểm mới.

3.5. Thăm dò dữ liệu cho dữ liệu phi cấu trúc

3.5.1. Phân tích dữ liệu thăm dò (Exploratory data analysis)

Cũng giống như dữ liệu có cấu trúc, điều quan trọng là phải hiểu rõ hơn về các khuôn mẫu hiện có trong dữ liệu phi cấu trúc để phân tích sâu hơn.

EDA có thể được thực hiện bằng cách:

Tính toán tần số thuật ngữ (TF): số lần từ đó xuất hiện trong văn bản.
Phân tích sự xuất hiện đồng thời: xem xét nơi hai hoặc nhiều từ xuất hiện cùng nhau.

EDA có thể được trình bày bằng:

Sử dụng các phương pháp tương tự như được giải thích trong phần dữ liệu có cấu trúc.
Đám mây từ là hình ảnh trực quan phổ biến khi làm việc với dữ liệu văn bản vì chúng có thể được tạo để trực quan hóa các từ có nhiều thông tin nhất và giá trị TF của chúng.

3.5.2. Lựa chọn đặc điểm (Feature selection)

Lựa chọn đặc điểm bao gồm việc chọn một tập hợp con mã thông báo trong BOW và loại bỏ một cách hiệu quả các đặc điểm gây nhiễu (các đặc điểm không góp phần đào tạo mô hình ML).

Thông thường, các đặc điểm gây nhiễu đều là các mã thông báo thường xuyên nhất và thưa thớt nhất (hoặc hiếm) nhất trong tập dữ liệu.

Các phương pháp lựa chọn đặc điểm:

Tần suất - Tần suất tài liệu (DF): là số lần tài liệu chứa token đó, TF và DF rất cao hoặc rất thấp cho thấy đặc điểm gây nhiễu.
Chi-square: kiểm định sự độc lập của 2 sự kiện - token xuất hiện và lớp xuất hiện, dùng để xác định các token xuất hiện liên quan tới một lớp cụ thể → Token với giá trị kiểm định chi-square lớn nhất sẽ được lựa chọn làm đặc điểm do có khả năng phân biệt cao hơn.
Thông tin tương hỗ (Mutual information): đo lường mức độ thông tin đóng góp bởi một token vào một lớp văn bản. Nếu token phân bổ đồng đều giữa các lớp văn bản (không đóng góp thông tin) → MI = 0; nếu token phân bổ chủ yếu ở trong một lớp văn bản (đóng góp nhiều thông tin) → MI = 1

3.5.3. Xây dựng đặc điểm (Feature engineering)

Giống như dữ liệu có cấu trúc, feature engineering có thể cải thiện đáng kể việc đào tạo mô hình ML. Sau đây là một số kỹ thuật cho feature engineering:

Số (Numbers): các ký tự số trong văn bản được chuyển sang dạng token, để khác biệt hóa giữa các loại số (năm, thuế, ID,...)
N-grams: Các chuỗi nhiều từ có tính phân biệt cao có thể được xác định và kết nối của chúng được giữ nguyên.
Nhận dạng thực thể có tên riêng (Name entity recognition): Thuật toán NER phân tích những token riêng biệt và ngữ nghĩa xung quanh của chúng trong khi tham khảo từ điển, để gắn thẻ một lớp đối tượng vào mã token.
Dạng từ (Part of speech): sử dụng cấu trúc ngôn ngữ và từ điển để gắn thẻ cho mỗi token trong văn bản tương ứng với 1 dạng từ (danh từ, động từ, tính từ,...).

3.6. Huấn luyện mô hình

Huấn luyện mô hình ML cho dữ liệu có cấu trúc và phi cấu trúc thường có quy trình giống nhau. Ý tưởng cơ bản của huấn luyện mô hình ML là điều chỉnh một hệ thống quy tắc trên tập dữ liệu huấn luyện để tiết lộ các khuôn mấu trong dữ liệu. Nói cách khác, sự phù hợp mô tả mức độ của mô hình ML có thể được khái quát hóa cho dữ liệu mới. Một mô hình phù hợp tốt sẽ mang lại hiệu suất cao và có thể được xác thực bằng cách sử dụng dữ liệu mới bên ngoài tập dữ liệu huấn luyện (tức là ngoài mẫu).

Lỗi khớp mô hình xảy ra do một số yếu tố - nguyên nhân chính là kích thước tập dữ liệu và số lượng tính năng trong tập dữ liệu.

Kích thước tập dữ liệu: Các tập dữ liệu nhỏ có thể dẫn đến việc mô hình không phù hợp nên mô hình có thể không nhận ra các khuôn mẫu quan trọng.
Số lượng đặc điểm: Một tập dữ liệu có số lượng đặc điểm nhỏ có thể dẫn đến độ khớp kém và một tập dữ liệu có số lượng đặc điểm lớn có thể dẫn đến hiện tượng quá khớp.

3.6.1. Lựa chọn phương pháp (Method selection)

Lựa chọn phương pháp là một việc phức tạp, đòi hỏi cân nhắc kỹ lưỡng trong việc lựa chọn phương pháp ML thích hợp (tức là thuật toán) dựa trên các mục tiêu và đặc điểm dữ liệu. Công việc này dựa trên 3 yếu tố sau:

Phương pháp: Học có hoặc không có giám sát
Loại dữ liệu:
- Đối với dữ liệu dạng số: classification and regression tree (CART)
- Đối với dữ liệu dạng văn bản: generalized linear models (GLMs) và SVMs
- Đối với dữ liệu dạng hình ảnh: neural networks và deep learning
Kích thước dữ liệu:
- Bộ dữ liệu lớn với nhiều quan sát và đặc điểm: SVMs
- Nhiều quan sát nhưng ít đặc điểm: Neural networks

Khi phương pháp đã được lựa chọn, những siêu tham số sẽ cần được làm rõ:

Regularization term (λ) trong các mô hình được giám sát
Hàm kích hoạt và số lớp ẩn trong NN
Số lượng cây và độ sâu của cây trong phương pháp tổng hợp
K trong phân loại KNN và phân cụm K-means
Ngưỡng p trong hồi quy logistic.

Đối với bộ dữ liệu hỗn hợp (chứa cả dữ liệu số và văn bản), có thể sử dụng nhiều phương pháp cùng lúc.

Để một mô hình có thể tính phân biệt tốt, nó cần được cung cấp nhiều loại dữ liệu huấn luyện. → Có một vấn đề gọi là Mất cân bằng lớp, xảy ra khi một lớp dữ liệu có số lượng quan sát lớn so với các lớp khác. Một cách để khắc phục sự mất cân bằng của lớp là lấy mẫu dưới tiêu chuẩn lớp được biểu thị quá mức và lấy mẫu quá tiêu chuẩn cho lớp được biểu thị dưới mức.

3.6.2. Đánh giá hiệu suất (Performance evaluation)

Để đánh giá một mô hình, chúng ta phải đo lường hiệu suất huấn luyện hoặc mức độ phù hợp của nó. Có ba phương pháp phổ biến nhất để đo lường hiệu suất này.

Phân tích lỗi: Đối với các vấn đề phân loại, phân tích lỗi bao gồm việc tính toán bốn số liệu đánh giá cơ bản: số liệu dương tính thật (TP), dương tính giả (FP), âm tính thực (TN) và âm tính giả (FN). FP còn được gọi là lỗi Loại I và FN còn được gọi là lỗi Loại II.

Receiver operating characteristic (ROC): một đường cong thể hiện sự cân bằng giữa FP và TP.

Trục Y: Tỷ lệ dương thực (TPR) – hay “Recall”/“Sensitivity” = TP / (TP + FN);
Trục X: Tỷ lệ dương tính giả (FPR) = FP / (FP + TN)

Đường cong lồi hơn cho thấy hiệu suất mô hình tốt hơn.

Diện tích dưới đường cong (AUC): (là giá trị từ 0 đến 1) giá trị AUC càng gần 1 thì độ chính xác dự đoán của mô hình càng cao.

Đường cong lồi hơn – và AUC cao hơn cho thấy hiệu suất mô hình tốt hơn.

Root mean square error (RMSE): được tính bằng cách tìm căn bậc hai của giá trị trung bình của chênh lệch bình phương giữa giá trị thực tế và giá trị dự đoán của mô hình (lỗi).

RMSE rất hữu ích cho các dự đoán dữ liệu liên tục, chẳng hạn như mô hình hồi quy.

RMSE nhỏ cho thấy hiệu suất mô hình có khả năng tốt hơn.

3.6.3. Tinh chỉnh mô hình (Model tuning)

Tinh chỉnh mô hình là quá trình điều chỉnh các siêu tham số của thuật toán hoặc mô hình học máy để tìm ra cấu hình tốt nhất nhằm cải thiện hiệu suất của nó trên một tác vụ hoặc tập dữ liệu cụ thể.

Trong khớp mô hình có thể gặp 2 lỗi:

Lỗi thiên lệch (Bias errror) là lỗi dự báo trong tập dữ liệu huấn luyện bắt nguồn từ mô hình quá đơn giản, chưa học đủ từ tập dữ liệu huấn luyện.
Lỗi phương sai (Variance error) là lỗi dự báo trong tập dữ liệu thẩm định bắt nguồn từ mô hình quá khớp, không đủ khái quát, xảy ra do quá nhiều đặc điểm được thêm vào mô hình (hay mô hình quá phức tạp).

→ Cần cân đối giữa lỗi thiên lệch và lỗi phương sai để mô hình đạt được trạng thái khớp tối ưu nhất.

Việc điều chỉnh mô hình có thể được thực hiện bằng cách sửa đổi siêu tham số hoặc tăng kích thước của tập dữ liệu huấn luyện,….

Kỹ thuật điều chỉnh bao gồm tìm kiếm dạng lưới và phân tích trần:

Tìm kiếm dạng lưới (Grid search) là một quá trình tự động chọn ra sự kết hợp tốt nhất của các siêu tham số.
Phân tích trần (Ceiling analysis) là quá trình đánh giá và điều chỉnh từng thành phần trong toàn bộ quy trình xây dựng mô hình.

Nếu bạn cần thêm thông tin, đừng quên liên hệ với chúng tôi:

Bộ phận trải nghiệm học viên tại SAPP

Hotline: 1900 2225 (nhánh số 2)

Email: support@sapp.edu.vn

Link yêu cầu về dịch vụ: https://sapp.edu.vn/dich-vu-cham-soc-hoc-vien-sapp-academy/