PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ

Mạnh Thiên Lý; Vũ Văn Vinh; Nguyễn Văn Lễ; Lâm Thị Họa Mi; Nguyễn Thị Thanh Thủy; Dương Thị Mộng Thùy

Mạnh Thiên Lý
Vũ Văn Vinh
Nguyễn Văn Lễ
Lâm Thị Họa Mi
Nguyễn Thị Thanh Thủy
Dương Thị Mộng Thùy

Tóm tắt

Mạng Internet ngày càng phát triển mạnh mẽ, mang lại nguồn thông tin vô cùng phong phú. Nhu cầu khai thác dữ liệu, phát hiện tri thức cũng ngày càng gia tăng. Phân lớp văn bản đóng vai trò quan trọng trong việc khai thác dữ liệu và phát hiện tri thức. Nhiều kỹ thuật trong học máy được ứng dụng để huấn luyện dữ liệu cho quá trình phân lớp. Hiện nay, có nhiều thuật toán được sử dụng để phân lớp văn bản như Naïve Bayes, K-NN, SVM, Maximum Entropy… Trong bài báo này, nhóm tác giả sử dụng các thuật toán như Naïve Bayes, SVM và K-NN để thực nghiệm phân lớp văn bản tiếng Việt trên 05 bộ dữ liệu thuộc 04 chủ đề khác nhau: Du lịch, Giải trí, Giáo dục và Pháp luật. Các bộ dữ liệu này được rút trích từ Website tin tức VnExpress.net. Một số đặc trưng định danh riêng được đưa vào quá trình xử lý để tăng độ chính xác trong quá trình phân lớp. Kết quả thử nghiệm cho thấy thuật toán SVM cho kết quả phân lớp với độ chính xác cao nhất (trên 90%) và thời gian thử nghiệm mô hình thấp nhất.

Từ khóa: Phân lớp văn bản, Naïve Bayes, K-NN, SVM, thuật toán.

PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN KHOA HỌC VÀ CÔNG NGHỆ QUỐC GIA - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION