[Level II] Quantitative Methods

[Tổng hợp các kiến thức cơ bản] Module 6: Machine learning

Tổng hợp các kiến thức quan trọng, cần lưu ý khi học Module 6 môn Quantitative Methods trong chương trình CFA level 2

Machine learning là việc sử dụng các thuật toán để ra quyết định trên cơ sở máy tính tự tổng hợp (generalize) – hay là tự xác định, tìm kiếm các mẫu (pattern) trong cơ sở dữ liệu cho sẵn. Machine learning, vì vậy, là phương pháp tối ưu hơn so với các phương pháp thống kê truyền thống, khi cần phải xử lý số lượng biến số lớn, và giữa các biến số này không tồn tại mối quan hệ tuyến tính.

Việc nắm được các khái niệm quan trọng về ML (machine learning) và các mô hình ML sẽ là nền tảng cơ bản cần thiết để người học có thể làm chủ được kiến thức của chủ đề này.

1.   Các khái niệm liên quan đến Machine learning

  • Target variable (biến mục tiêu): là biến phụ thuộc (biến y). Biến mục tiêu có thể là biến liên tục (continuous), biến phân loại (categorical), hoặc biến thứ tự (ordinal).
  • Features: Các biến độc lập trong mô hình (các biến x)
  • Training data set (tập dữ liệu huấn luyện): là tập dữ liệu để huấn luyện cho mô hình machine learning hoặc thuật toán.
  • Hyperparameter: một số thông tin đầu vào về mô hình được quy định bởi người nghiên cứu.

2.   Các mô hình Machine learning

2.1. Supervised learning (Học có giám sát)

Supervised learning là việc sử dụng những quan sát có dán nhãn (labeled data) để “dạy” các chương trình machine learning đưa ra dự báo chính xác. Nói cách khác, supervised learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn được gọi là quan sát có dán nhãn (data, label), tức (dữ liệu, nhãn).

Nguyên tắc hoạt động của supervised learning có thể được đơn giản hóa như sau: bằng việc ghi nhớ và tổng quát hóa một số quy tắc từ một tập câu hỏi có đáp án trước, máy tính sẽ có thể trả lời được những câu hỏi dù chưa từng gặp phải, nhưng có mối liên quan.

2.2. Unsupervised learning (Học không có giám sát)

Ở mô hình này, chúng ta không biết được outcome hay nhãn mà chỉ có dữ liệu đầu vào. Thuật toán unsupervised learning sẽ dựa vào cấu trúc hoặc mối tương quan của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimensionality reduction) để thuận tiện trong việc lưu trữ và tính toán.

2.3.      Deep learning & reinforced learning

Deep learning là một loại học máy dựa trên mạng thần kinh nhân tạo, trong đó nhiều lớp xử lý được sử dụng để trích xuất dần dần các tính năng cấp cao hơn từ dữ liệu và các tác vụ phức tạp như phân loại hình ảnh, nhận dạng khuôn mặt, nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên.

  • Thuật toán deep learning được sử dụng để thực hiện những công việc phức tạp như nhận diện hình ảnh (image recognition), xử lý ngôn ngữ tự nhiên (natural language processing) …
  • Thuật toán reinforced learning là những thuật toán tự “học” từ sai số dự báo của chính mô hình thuật toán.

Cả hai thuật toán này đều dựa trên các mạng lưới thần kinh nhân tạo (neural network).

3. Hiện tượng quá khớp

3.1. Khái niệm

Hiện tượng quá khớp (Overfitting) là một lỗi mô hình hóa xảy ra khi mô hình học máy học dữ liệu huấn luyện quá tốt, bao gồm cả nhiễu và biến động ngẫu nhiên, đến mức mô hình hoạt động kém trên dữ liệu mới hoặc dữ liệu chưa từng gặp.

Hiện tượng này có thể khiến giảm độ chính xác của các dự báo từ các tập dữ liệu mới bên ngoài, hay nói cách khác là mô hình quá khớp sẽ không khái quát được dữ liệu một cách phù hợp nhất.

3.2. Đo lường hiệu quả của mô hình

Ta sử dụng 3 tập tự liệu không trùng lặp để  đo lường mức độ khái quát hóa của mô hình:

Loại mẫu Mục đích sử dụng Lỗi có thể xảy ra
Mẫu huấn luyện (Training sample) Sử dụng để xây dựng mô hình Lỗi trong mẫu (in-sample prediction errors)
Mẫu thẩm định (Validation sample) Sử dụng để điều chỉnh mô hình Lỗi ngoài mẫu (out-sample prediction errors)
Mẫu thử (Test sample) Sử dụng để đánh giá mô hình sử dụng dữ liệu mới Lỗi ngoài mẫu (Out-of-sample prediction errors)

Các lỗi trên được chia ra thành 3 loại chính:

  • Lỗi thiên lệch (Bias error): Đây là lỗi trong mẫu, thể hiện sự khác biệt giữa giá trị trung bình mà mô hình dự đoán và giá trị thực tế của dữ liệu thu được từ các mô hình có mức độ phù hợp kém.
  • Lỗi phương sai (Variance error): Đây là lỗi ngoài mẫu, thể hiện mức độ phân tán của giá trị mà mô hình dự báo so với giá trị thực tế.
  • Lỗi cơ bản (Base error): Đây là lỗi phần dư đến từ độ nhiễu ngẫu nhiên

Mô hình càng phức tạp, lỗi thiên lệch càng giảm và lỗi phương sai càng tăng.

Ma trận lỗi thiên lệch và lỗi phương sai

Đường cong khớp (fitting curve) biểu diễn lỗi trong và ngoài mẫu trên trục tung y và mức độ phức tạp của mô hình trên trục hoành, thể hiện sự đánh đổi giữa chi phí (lỗi xảy ra) và mức độ phức tạp mô hình.

Đường cong huấn luyện (learning curve) biểu thị tỷ lệ chính xác (tức là 1 − error rate) trong mẫu thẩm định (validation sample) hoặc mẫu thử (test sample) so với kích thước của mẫu huấn luyện.

3.3. Giảm thiểu hiện tượng mô hình quá khớp

3.3.1. Giảm độ phức tạp của mô hình

Phương pháp này liên quan đến sắp xếp hợp lý hoặc giảm thiểu số lượng thành phần, yếu tố hoặc phần tử trong mô hình để làm cho mô hình dễ quản lý, dễ hiểu và hiệu quả hơn.

  • Một giá trị phạt được áp dụng để loại trừ các yếu tố không đóng góp một cách có ý nghĩa vào độ chính xác của dự đoán ngoài mẫu.
  • Giá trị phạt này tăng theo số lượng biến (đặc điểm) độc lập được mô hình sử dụng.

3.3.2. Thẩm định chéo

Phương pháp thẩm định chéo (Cross validation) chia tập dữ liệu thành các tập con, huấn luyện mô hình bằng một số tập dữ liệu con và sử dụng tập còn lại để kiểm tra tính hiệu quả của mô hình.

  • Các nhà nghiên cứu phải đảm bảo rằng tập dữ liệu huấn luyện vừa lớn vừa mang tính đại diện cho tổng thể.
  • Tương tự, mẫu xác nhận phải lớn và mang tính đại diện để kiểm tra mô hình một cách chính xác.

Thẩm định chéo K lần (K - fold cross validation) là kỹ thuật được sử dụng để giảm thiểu vấn đề của các mẫu giữ lại (tức là các mẫu dữ liệu không được sử dụng để huấn luyện mô hình) làm giảm kích thước tập huấn luyện quá nhiều. Các bước thực hiện như sau:

Bước 1: Mẫu được chia thành k phần một cách ngẫu nhiên

Bước 2: Mẫu huấn luyện bao gồm k-1 phần, với 1 phần để thực hiện thẩm định

Bước 3: Đo lường lỗi cho mô hình đối với mỗi phần

Bước 4: Quá trình này được thực hiện lặp lại k lần, và thu được tỷ lệ lỗi trong và ngoài mẫu trung bình.

4. Các mô hình học có giám sát

Các mô hình học có giám sát (Supervised machine learning) bao gồm 6 loại:

  • Hồi quy có điểm phạt (Penalized regression)
  • Vector hỗ trợ (Support vector machine)
  • K điểm tương tự gần nhất (K-nearest neighbor)
  • Phân loại và cây hồi quy (Classification and regression tree)
  • Học theo nhóm (Ensemble learning)
  • Mô hình rừng cây (Random forest)

4.1. Penalized regression

Vấn đề overfitting bắt nguồn từ việc có quá nhiều nhân tố được thêm vào mô hình, khiến độ chính xác của dự báo từ mô hình bị giảm đi. Penalized regression là phương pháp giảm thiểu vấn đề overfitting bằng cách đưa ra một giá trị phạt dựa trên số nhân tố được sử dụng trong mô hình. 

Một trong những loại phổ biến nhất của Penalized regression là phương pháp ước lượng LASSO (Least absolute shrinkage and selection operator). LASSO giảm tới mức nhỏ nhất SEE cũng như tổng giá trị tuyệt đối của các hệ số góc. Thông qua việc tối ưu hóa, LASSO tự động loại bỏ các nhân tố ít có tính dự báo nhất.

  • là giá trị phạt (penalty term)
  • λ là siêu tham số xác định sự cân bằng giữa việc trang bị quá mức cho mô hình và giữ cho nó ở mức tối ưu.

Với λ = 0, phương pháp hồi quy theo LASSO tương tự với OLS.

Số nhân tố được thêm vào mô hình càng lớn, giá trị phạt càng cao → Một nhân tố chỉ được thêm vào nếu SSE giảm nhiều hơn mức giá trị phạt tăng lên.

4.2. Support vector machine (SVM)

Support vector machine là thuật toán phân loại tuyến tính, phân chia sắp xếp dữ liệu vào 1 trong 2 nhóm phân loại.

Thông qua SVM, dữ liệu có thể được phân tách thành 2 mảng bằng vô số những đường thẳng, gọi là máy phân loại tuyến tính (linear classifier).

Các quan sát có n đặc điểm có thể được biểu diễn trong không gian n chiều và tập dữ liệu sẽ có thể phân tách tuyến tính nếu các quan sát có thể được tách thành hai vùng riêng biệt bằng ranh giới không gian tuyến tính (siêu phẳng (n-1) chiều)

Trên thực tế, hầu hết các bộ dữ liệu trong thế giới thực đều không thể phân tách tuyến tính. Một số quan sát có thể nằm sai phía ranh giới và bị phân loại sai bởi thuật toán SVM. Để giải quyết vấn đề này, ta có thể sử dụng 2 phương pháp:

  • Phân loại ranh giới mềm (Soft margin classification): thêm phần tử phạt vào hàm phân loại cho các quan sát trong tập dữ liệu huấn luyện bị phân loại sai. Về bản chất, thuật toán SVM sẽ chọn ranh giới phân biệt nhằm tối ưu hóa sự cân bằng giữa biên độ rộng hơn và tổng mức phạt lỗi thấp hơn.

  • Thuật toán phân loại vector không tuyến tính (Non-linear SVM algorithm): Tìm một siêu phẳng (ranh giới quyết định) phân tách tốt nhất các điểm dữ liệu của các lớp khác nhau đồng thời tối đa hóa lề giữa các lớp này. Các thuật toán này có thể làm giảm số lượng trường hợp bị phân loại sai trong tập dữ liệu huấn luyện nhưng phức tạp hơn.

4.3. K-nearest neighbor (KNN)

K-nearest neighbor là thuật toán được sử dụng để phân loại một quan sát dựa trên các quan sát khác trong một phạm vi khoảng cách gần trong tập dữ liệu huấn luyện.

KNN bao gồm 3 bước:

Bước 1: Xác định giá trị k (siêu tham số)

Bước 2: Tìm k quan sát trong mẫu, nằm gần nhất với quan sát đang được phân loại

Bước 3: Chọn phân loại với số lượng lớn nhất trong k quan sát đang được xét.

Trong thực tế, có nhiều kỹ thuật để xác định giá trị k tối ưu, thông qua việc cân nhắc số phân loại và phân vùng không gian đặc trưng của chúng.

  • Nếu k quá nhỏ → Tỷ lệ lỗi cao
  • Nếu k quá lớn → Phân tán kết quả vì phải lấy trung bình của quá nhiều đầu ra
  • Nếu k vừa phải → Không tìm được phân loại chiếm ưu thế

4.4. Classification and Regression trees (CART)

Classification and Regression trees (CART) là thuật toán phổ biến có thể tự báo biến mục tiêu ở dạng phân loại (sử dụng cây phân loại nhị phân) và dạng liên tục (sử dụng cây hồi quy).

Để tránh hiện tượng overfitting, cần có các tiêu chí về độ sâu tối đa của cây, số nút quyết định,... Các phần của cây ít có tính giải thích sẽ bị loại bỏ.

Ưu điểm của mô hình CART so với các thuật toán khác:

  • Tạo ra các quy tắc mạnh mẽ bất chấp dữ liệu nhiễu và mối quan hệ phức tạp giữa số lượng lớn các tính năng → Một công cụ mạnh mẽ để xây dựng hệ thống chuyên gia phục vụ quá trình ra quyết định.
  • Cung cấp cách giải thích trực quan cho dự đoán, thuận lợi hơn so với các thuật toán khác bị coi là “hộp đen” vì người nghiên cứu khó hiểu rõ được lý do đằng sau kết quả của chúng.

4.5. Ensemble learning

Ensemble learning là kỹ thuật kết hợp các dự đoán từ nhiều mô hình thay vì một mô hình duy nhất, sự kết hợp của nhiều thuật toán học máy được gọi là phương pháp tổng hợp.

Ensemble learning có thể được chia thành 2 loại chính:

  • Tổng hợp những thuật toán không đồng nhất (Aggregation of heterogenous learners):
    • Các thuật toán khác nhau được kết hợp với một bộ phân loại biểu quyết.
    • Mỗi thuật toán khác nhau sẽ nhận được một phiếu lựa chọn và sau đó ta sẽ chọn câu thuật toán nào nhận được lựa chọn nhiều nhất.
    • Các mô hình được chọn sẽ có đủ sự đa dạng trong cách tiếp cận, dẫn đến mức độ tin cậy cao hơn cho các dự đoán.
  • Tổng hợp những thuật toán đồng nhất (Aggregation of homogenous learners):
    • Một thuật toán sẽ được sử dụng, nhưng với mẫu huấn luyện khác nhau.
    • Các mẫu huấn luyện khác nhau có thể được tạo nên bởi quá trình bootstrap hoặc bagging.
    • Quy trình này phụ thuộc vào việc tạo ra các mẫu ngẫu nhiên (bags) với sự thay thế từ mẫu huấn luyện ban đầu.

4.6. Random forest

Random forest là một biến thể của cây phân loại, trong đó một số lượng lớn cây phân loại được huấn luyện bằng cách sử dụng dữ liệu được rút ra (bagging) từ cùng một tập dữ liệu.

4 bước của thuật toán:

Bước 1: Một tập con điểm dữ liệu và một tập con các đặc điểm được lựa chọn để xây dựng mỗi cây quyết định (decision tree). Hay nói cách khác, ta có n quan sát, m đặc điểm được lấy ra từ tập dữ liệu với k quan sát tất cả.

Bước 2: Mỗi cây quyết định được xây dựng cho mỗi tập con.

Bước 3: Mỗi cây quyết định cho ra kết quả của riêng nó.

Bước 4: Kết quả cuối cùng được rút ra dựa trên việc bỏ phiếu hoặc lấy trung bình.

So sánh decision tree và random forest:

Decision tree Random forest
Gặp vấn đề về overfitting nếu không có giới hạn về độ lớn của cây Được tạo ra từ các tập dữ liệu con, và kết quả cuối cùng dựa trên kết quả trung bình hoặc bỏ phiếu, vì vậy vấn đề overfitting sẽ được giải quyết
Tính toán nhanh hơn Tính toán mất thời gian hơn
Khi tập dữ liệu với những đặc điểm được lấy làm đầu vào, một số quy tắc được hình thành để thực hiện dự báo Chọn ngẫu nhiên các quan sát, xây dựng các cây quyết định, lấy trung bình kết quả

5. Các mô hình học không có giám sát

Các mô hình học không có giám sát (Unsupervised machine learning) được phân chia như sau:

  • Phân tích thành phần chính (Principal component analysis)
  • Phân cụm (Clustering)
    • Phân cụm K-means (K-means clustering)
    • Phân cụm theo thứ bậc (Hierarchical clustering)

5.1. Principal component analysis (PCA)

Principal component analysis (PCA) là một phương pháp học không giám sát, tóm tắt thông tin trong một số lượng lớn các yếu tố tương quan thành một tập hợp nhỏ hơn gồm nhiều yếu tố không tương quan (các thành phần chính) do nhà nghiên cứu chỉ định, gọi là vectơ riêng (eigenvector), sự kết hợp tuyến tính của các đặc điểm ban đầu.

Mỗi vectơ riêng có một giá trị riêng (eigenvalue), đây là phần trăm trên tổng biến động trong tập dữ liệu được giải thích bởi vectơ riêng đó.

Ta cần xác định được số lượng yếu tố cần giữ lại, hay nói cách khác là ta cần cân bằng giữa việc có một đại diện đơn giản, dễ sử dụng cho tập dữ liệu khi chọn ra một số yếu tố, nhưng phải chấp nhận rằng sẽ có một lượng thông tin nhất định có thể không được nắm bắt.

Nhược điểm của PCA:

  • Vì các thành phần chính là tập hợp các đặc điểm ban đầu của tập dữ liệu, chúng thường không dễ được dán nhãn hoặc trực tiếp diễn giải bởi nhà phân tích.
  • So với việc mô hình hóa dữ liệu với các biến cụ thể, người sử dụng cuối cùng của PCA dễ nhìn nhận PCA như một dạng "hộp đen" (không hiểu rõ cách thức hoạt động cho ra kết quả của thuật toán).

5.2. Clustering

Clustering là một loại máy học không giám sát khác, nhằm mục đích tìm ra một phân cụm dữ liệu tốt:

  • Các quan sát bên trong mỗi cụm là tương tự hoặc gần nhau (đặc tính này gọi là sự gắn kết).
  • Các quan sát trong hai cụm khác nhau càng cách xa nhau hoặc càng khác nhau càng tốt (đặc tính này gọi là sự tách biệt).

2 phương pháp phân cụm phổ biến là k-means clustering và hierarchical clustering.

5.2.1. K-means clustering

K-means clustering là thuật toán lặp lại việc phân mảnh dữ liệu thành k phân cụm không trùng nhau. Mỗi phân cụm có một trọng tâm (tâm điểm của phân cụm đó), và mỗi quan sát được phân vào một phân cụm dựa trên sự giống hoặc gần với trọng tâm đó.

Thuật toán k-mean tuân theo một quy trình lặp lại, nhóm các quan sát theo các bước sau:

Bước 1: Xác định vị trí của k trọng tâm ngẫu nhiên

Bước 2: Phân tích các đặc điểm đối với mỗi quan sát. Dựa trên khoảng cách được sử dụng, phân mỗi quan sát về nhóm với trọng tâm gần nhất, tạo thành 1 phân cụm.

Bước 3: Sử dụng quan sát trong mỗi phân cụm, tính ra trọng tâm mới cho mỗi phân cụm, từ đó trọng tâm mới là giá trị trung bình của các quan sát trong phân cụm đó.

Bước 4: Phân loại lại các quan sát vào các trọng tâm mới để tạo ra các phân cụm mới.

Bước 5: Các bước tính trọng tâm mới được lặp lại

Bước 6: Sắp xếp lại các quan sát vào trọng tâm mới, tạo ra các phân cụm mới

Quá trình này được lặp lại cho tới khi không có một quan sát nào có thể được phân loại vào phân cụm mới nữa, hay nói cách khác là không cần tính trọng tâm mới nữa.

Nhược điểm của K-mean clustering là siêu tham số k được chọn trước khi quá trình phân cụm diễn ra, nghĩa là nhà phân tích cần có một số hiểu biết sẵn có về bản chất của tập dữ liệu.

5.2.2. Hierarchical clustering

Phân cụm theo cấp bậc là một quy trình được sử dụng để xây dựng một hệ thống phân cấp của cụm mà không có bất kỳ số lượng cụm được xác định trước nào để tạo ra các vòng trung gian của các cụm có kích thước tăng dần (ở dạng “kết tụ”) hoặc giảm dần (ở dạng “chia”) cho đến khi đạt được phân cụm cuối cùng.

Phân cụm theo cấp bậc bao gồm phân cụm kết tụ (agglomerative) - từ dưới lên (bottom-up) và phân cụm chia nhỏ (divisive) - từ trên xuống (top-down).

Agglomerative clustering Divisive clustering

Bước 1: Mỗi quan sát được coi như 1 phân cụm của chính nó

Bước 2: Thuật toán tìm kiếm những phân cụm gần nhau nhất (tương đồng nhất), và gộp lại với nhau thành 1 phân cụm lớn hơn

→ Quá trình này được lặp lại cho tới khi tất cả được gộp với nhau thành 1 phân cụm lớn

Bước 1: Tất cả quan sát đều thuộc về 1 phân cụm lớn

Bước 2: Các quan sát được chia nhỏ thành 2 phân cụm dựa trên sự tương đồng

→ Liên tục chia nhỏ các phân cụm thành các phân cụm con nhỏ hơn cho tới khi mỗi phân cụm bao gồm 1 quan sát

Ví dụ về Agglomerative clustering

Ví dụ về Divisive clustering

Một loại sơ đồ cây để trực quan hóa phân cụm theo cấp bậc được gọi là sơ đồ nhánh (Dendrogram), trong đó nêu bật mối quan hệ phân cấp giữa các cụm. Trục x hiển thị các cụm và trục y biểu thị một số thước đo khoảng cách.

  • Các cụm được thể hiện bằng một đường ngang. Hình vòm (arch), nối hai đường thẳng đứng, gọi là sợi nhánh (dendrites).
  • Các sợi nhánh ngắn hơn thể hiện khoảng cách ngắn hơn (và độ tương đồng lớn hơn) giữa các cụm.
  • Các đường nét đứt cắt ngang các sợi nhánh hiển thị số cụm mà dữ liệu được phân chia ở mỗi giai đoạn.

6. Mạng lưới thần kinh (Neural network)

Neural network (còn gọi là mạng thần kinh nhân tạo hoặc ANN) là một loại thuật toán ML có tính linh hoạt cao được áp dụng cho nhiều tác vụ khác nhau được đặc trưng bởi tính phi tuyến tính và các tương tác phức tạp như nhận dạng hình ảnh, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên (NLP), v.v. . Các tính năng được xây dựng dưới dạng các nút (nodes) được kết nối bằng liên kết.

Neural network có 3 lớp chính:

  • Lớp đầu vào (input layer) với mỗi nút là 1 đặc điểm
  • Lớp ẩn (hidden layer) là nơi quá trình huấn luyện thuật toán diễn ra cũng như dữ liệu đầu vào được xử lý trên mạng lưới huấn luyện
  • Lớp đầu ra (output layer) xuất thông tin ra bên ngoài mạng lưới

Hình trên mô tả sự phức tạp của một mạng lưới thần kinh:

  • 1 lớp đầu vào gồm 4 nút tương ứng với 4 đặc điểm
  • 1 lớp ẩn gồm 5 nút (Zi) tương ứng với 5 nơ-ron
  • 1 lớp đầu ra (Y)

Nút Zi trong lớp ẩn của mạng lưới thần kinh biến đổi đầu vào theo phương pháp phi tuyến tính thành một giá trị mới, và được đưa vào giá trị của biến mục tiêu. Các con số 4, 5, 1 là các siêu tham số để xác định cấu trúc của mạng lưới thần kinh.

  • Đối với Z1, ta thấy có 4 liên kết kết nối nút đó từ đầu vào (X1, X2, X3, X4), vậy nút này có 4 giá trị được truyền dẫn bởi các liên kết.
  • Mỗi liên kết có một tỷ trọng đại diện cho tính quan trọng của chúng, và mỗi nút có 2 phần chức năng: summation operatoractivation function.

Quy trình của mạng lưới thần kinh:

  • Các nơ-ron này bao gồm summation operator để đối chiếu thông tin và chuyển đến activation function (thường là phi tuyến tính).

  • Sau đó, đầu ra của hàm kích hoạt được truyền đến tập hợp các nút tiếp theo nếu có lớp ẩn thứ hai hoặc tới nút lớp đầu ra làm giá trị dự báo → một quá trình được gọi là lan truyền thuận (forward propagation).

  • Một quy trình liên quan, lan truyền ngược (backward propagation), được sử dụng để sửa lại các trọng số được sử dụng trong toán tử tính tổng khi mạng lưới học hỏi từ chính các lỗi của nó.

7. Deep learning networks

Mạng học sâu (Deep neural networks, DLN, DNN) là mạng thần kinh không giám sát với nhiều lớp ẩn (thường lớn hơn 20 lớp).

Hoạt động của DLN:

  • Lớp đầu vào chuyển một tập hợp các đầu vào tới một lớp hàm toán học phi tuyến tính (tế bào thần kinh) có trọng số wij (đối với nơron i và đầu vào j), mỗi trọng số thường tạo ra một số trong phạm vi (0, 1) hoặc ( –1, 1).
  • Những con số này sau đó được chuyển sang lớp hàm khác, rồi sang lớp khác, v.v. cho đến khi lớp cuối cùng tạo ra một tập hợp xác suất của quan sát thuộc bất kỳ phân loại mục tiêu nào (các nút trong lớp đầu ra).
  • Lớp cuối cùng trong DLN tính toán xác suất dự kiến của một quan sát thuộc một phân loại và quan sát đó được gán cho phân loại có xác suất cao nhất.


Nếu bạn cần thêm thông tin, đừng quên liên hệ với chúng tôi:

Bộ phận trải nghiệm học viên tại SAPP
Hotline: 1900 2225 (nhánh số 2)
Email: support@sapp.edu.vn