Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P2)

Diễn đàn - Ngày đăng : 20:18, 03/11/2015

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác.

ĐÁNH GIÁ VÀ THỬ NGHIỆM CHƯƠNG TRÌNH

Nhóm nghiên cứu đã thu thập dữ liệu mẫu gồm các thư điện tử được coi là hợp lệ và các thư rác với mục đích dùng làm dữ liệu mẫu để kiểm thử và đánh giá hệ thống. Tập hợp dữ liệu mẫu gồm các từ rác, ví dụ như "bạn dự định...", "bạn sắp... cũng đã được thu thập qua một công cụ riêng. Kết quả thu được sau quá trình kiểm thử là khá khả quan.

Dữ liệu kiểm thử đầu tiên là một email không có tiêu đề, chỉ có nội dung. Chương trình đã phát hiện được bất thường của email này và đưa nó vào danh sách thư rác, đồng thời nhận diện địa chỉ của người gửi này, đưa vào danh sách đen, nhằm phát hiện cho lần nhận kế tiếp.

Tập dữ liệu tiếp là của người gửi trên, với cả tiêu đề và nội dung email đầy đủ. Chương trình đã tự nhận diện được nguồn gửi từ danh sách đen, đồng thời đưa thư điện tử này vào tập thư rác.

Nhóm nghiên cứu tiếp tục thử nghiệm thư điện tử khác với một người dùng mới, nội dung mới và không có dấu hiệu bất thường. Đây là một thư điện tử quảng cáo có thể thấy từ các trang web thời trang, với các loại quần áo và giá tiền tương ứng. Có rất nhiều email hợp lệ mang giá tiền và sản phẩm đặc trưng, nhưng điều khiến cho hệ thống phát hiện ra email này là thư rác vì nó chứa các từ được lấy từ dữ liệu mẫu đã được coi là rác. Ví dụ như cụm từ "E-mail này dùng để gửi cho khách hàng. Vui lòng truy cập Thông tin cá nhân để từ chối nhận mail". Nhờ các trọng số kết hợp với nhau lấy từ tập dữ liệu mẫu, chương trình đã nhận ra được đây là thư rác.

Dữ liệu kiểm thử tiếp theo được lấy từ một lời mời đến buổi tiệc của một nhà hàng. Như thường lệ, với các công ty và doanh nghiệp, việc nhân viên của họ nhận được lời mời là khá thường xuyên. Nhưng điều khiến thư điện tử này trở nên bất thường là nó chứa các thông tin không giống như là một lời mời thông thường, được biểu hiện qua các từ ngữ như:

-"Bạn là một người trẻ tuổi, độc thân và nghiêm túc trong tình cảm?".

-"Bạn mong muốn tìm kiếm một nửa của mình nhưng cảm thấy thật khó khăn?".

-"Phí tham dự: 150,000 VNĐ /1 người (đã bao gồm một đồ uống)".

Với các nội dung nhạy cảm như vậy, chương trình đã bắt được các dấu hiệu đặc trưng của thư rác và thực hiện phân loại đúng như ý muốn của người dùng.

Đối với các thư hợp lệ, chương trình đạt hiệu quả cao khi cho phần lớn các thư loại này đi qua, với xác suất đánh giá sai khá thấp.

So sánh với tỉ lệ lọc thư rác tiếng Việt của SpamAssasin, tỉ lệ lọc thư rác tiếng Việt là khá cao khi số lượng dữ liệu mẫu tăng lên từ 100 đến 400 (Hình 3).


Thậm chí, chương trình của nhóm nghiên cứu còn giảm bớt tài nguyên sử dụng và thời gian tính toán so với SpamAssasin do đã lọc qua các thư điện tử nằm trong danh sách đen.

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác. Sau khi kiểm thử với dữ liệu trên, nhóm nghiên cứu thu được kết quả sau:

-Số lượng thư điện tử hợp lệ phát hiện đúng: 2.530.

-Số lượng thư điện tử hợp lệ bị phát hiện sai: 21.

-Số lượng thư rác được phát hiện đúng: 993.

-Số lượng thư rác bị phát hiện sai: 98.

Như vậy, tỉ lệ thư hợp lệ được phát hiện đúng là khá cao với hơn 99%, cùng tỉ lệ bỏ sót thư rác chỉ đạt gần 10% đối với tổng số 3.552 trường hợp kiểm thử. Các tỉ lệ này hoàn toàn có thể đươc cải thiện khi gia tăng dữ liệu mẫu phục vụ học máy. Với nhiều tri thức hơn, phần mềm hoàn toàn có thể đưa ra đươc việc phân loại đạt hiệu quả cao hơn.

Tài liệu tham khảo

[1].http://usa.kaspersky.com/internet-security-center/threats/ spam-statistics-report-ql-2014.
[2].http://www.trendmicro.com/us/security-intelligence/ current-threat-activity/global-spam-map/.[3].ZimbraCollaboration Suite 8.0.
http://wiki.zimbra.com/wiki/ZCS_8.0.
[4].Zimlet Developers Guide: Introduction. http://wiki.zimbra.com/wiki/Zimlet_Developers_Guide:Introduction.

Vũ Thị Hương Giang, Nguyễn Giang Trường

(TC TTTT Kỳ 2/11/2014)