Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt

Bài viết so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.