Phương pháp trích rút từ khóa tìm tập ứng cử trong bài toán phát hiện đạo văn

Bài viết này đề xuất một phương pháp trích rút tập từ khóa đại diện cho tài liệu đầu vào dựa trên các độ đo tf.idf mức tài liệu và mức đoạn, có xem xét yếu tố từ loại với thứ tự ưu tiên lần lượt là danh từ, tính từ, động từ. Để đánh giá phương pháp đề xuất, chúng tôi tiến hành xây dựng tập dữ liệu thử nghiệm tiếng Việt gồm 10 tài liệu cần kiểm tra với mỗi tài liệu có 10 tài liệu liên quan.