VẤN ĐỀ VANISHING GRADIENT VÀ CÁC PHƯƠNG PHÁP XỬ LÝ KHI LAN TRUYỀN NGƯỢC TRONG HUẤN LUYỆN MÔ HÌNH HỌC SÂU

  • Phạm Ngọc Giàu
  • Tống Lê Thanh Hải
Từ khóa: Mạng nơron, MLP, vanishing gradients.

Tóm tắt

Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các
trọng số (weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng
0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu.
Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing
gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn
luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau
tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients
được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi
cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tự
như BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và
giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô
hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn
đề vanishing gradient.

điểm /   đánh giá
Phát hành ngày
2024-02-19
Chuyên mục
KHOA HỌC-CÔNG NGHỆ