Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P2)

03/11/2015 20:18
Theo dõi ICTVietnam trên

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác.

ĐÁNH GIÁ VÀ THỬ NGHIỆM CHƯƠNG TRÌNH

Nhóm nghiên cứu đã thu thập dữ liệu mẫu gồm các thư điện tử được coi là hợp lệ và các thư rác với mục đích dùng làm dữ liệu mẫu để kiểm thử và đánh giá hệ thống. Tập hợp dữ liệu mẫu gồm các từ rác, ví dụ như "bạn dự định...", "bạn sắp... cũng đã được thu thập qua một công cụ riêng. Kết quả thu được sau quá trình kiểm thử là khá khả quan.

Dữ liệu kiểm thử đầu tiên là một email không có tiêu đề, chỉ có nội dung. Chương trình đã phát hiện được bất thường của email này và đưa nó vào danh sách thư rác, đồng thời nhận diện địa chỉ của người gửi này, đưa vào danh sách đen, nhằm phát hiện cho lần nhận kế tiếp.

Tập dữ liệu tiếp là của người gửi trên, với cả tiêu đề và nội dung email đầy đủ. Chương trình đã tự nhận diện được nguồn gửi từ danh sách đen, đồng thời đưa thư điện tử này vào tập thư rác.

Nhóm nghiên cứu tiếp tục thử nghiệm thư điện tử khác với một người dùng mới, nội dung mới và không có dấu hiệu bất thường. Đây là một thư điện tử quảng cáo có thể thấy từ các trang web thời trang, với các loại quần áo và giá tiền tương ứng. Có rất nhiều email hợp lệ mang giá tiền và sản phẩm đặc trưng, nhưng điều khiến cho hệ thống phát hiện ra email này là thư rác vì nó chứa các từ được lấy từ dữ liệu mẫu đã được coi là rác. Ví dụ như cụm từ "E-mail này dùng để gửi cho khách hàng. Vui lòng truy cập Thông tin cá nhân để từ chối nhận mail". Nhờ các trọng số kết hợp với nhau lấy từ tập dữ liệu mẫu, chương trình đã nhận ra được đây là thư rác.

Dữ liệu kiểm thử tiếp theo được lấy từ một lời mời đến buổi tiệc của một nhà hàng. Như thường lệ, với các công ty và doanh nghiệp, việc nhân viên của họ nhận được lời mời là khá thường xuyên. Nhưng điều khiến thư điện tử này trở nên bất thường là nó chứa các thông tin không giống như là một lời mời thông thường, được biểu hiện qua các từ ngữ như:

-"Bạn là một người trẻ tuổi, độc thân và nghiêm túc trong tình cảm?".

-"Bạn mong muốn tìm kiếm một nửa của mình nhưng cảm thấy thật khó khăn?".

-"Phí tham dự: 150,000 VNĐ /1 người (đã bao gồm một đồ uống)".

Với các nội dung nhạy cảm như vậy, chương trình đã bắt được các dấu hiệu đặc trưng của thư rác và thực hiện phân loại đúng như ý muốn của người dùng.

Đối với các thư hợp lệ, chương trình đạt hiệu quả cao khi cho phần lớn các thư loại này đi qua, với xác suất đánh giá sai khá thấp.

So sánh với tỉ lệ lọc thư rác tiếng Việt của SpamAssasin, tỉ lệ lọc thư rác tiếng Việt là khá cao khi số lượng dữ liệu mẫu tăng lên từ 100 đến 400 (Hình 3).


Thậm chí, chương trình của nhóm nghiên cứu còn giảm bớt tài nguyên sử dụng và thời gian tính toán so với SpamAssasin do đã lọc qua các thư điện tử nằm trong danh sách đen.

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác. Sau khi kiểm thử với dữ liệu trên, nhóm nghiên cứu thu được kết quả sau:

-Số lượng thư điện tử hợp lệ phát hiện đúng: 2.530.

-Số lượng thư điện tử hợp lệ bị phát hiện sai: 21.

-Số lượng thư rác được phát hiện đúng: 993.

-Số lượng thư rác bị phát hiện sai: 98.

Như vậy, tỉ lệ thư hợp lệ được phát hiện đúng là khá cao với hơn 99%, cùng tỉ lệ bỏ sót thư rác chỉ đạt gần 10% đối với tổng số 3.552 trường hợp kiểm thử. Các tỉ lệ này hoàn toàn có thể đươc cải thiện khi gia tăng dữ liệu mẫu phục vụ học máy. Với nhiều tri thức hơn, phần mềm hoàn toàn có thể đưa ra đươc việc phân loại đạt hiệu quả cao hơn.

Tài liệu tham khảo

[1].http://usa.kaspersky.com/internet-security-center/threats/ spam-statistics-report-ql-2014.
[2].http://www.trendmicro.com/us/security-intelligence/ current-threat-activity/global-spam-map/.[3].ZimbraCollaboration Suite 8.0.
http://wiki.zimbra.com/wiki/ZCS_8.0.
[4].Zimlet Developers Guide: Introduction. http://wiki.zimbra.com/wiki/Zimlet_Developers_Guide:Introduction.

Vũ Thị Hương Giang, Nguyễn Giang Trường

(TC TTTT Kỳ 2/11/2014)

Nổi bật Tạp chí Thông tin & Truyền thông
  • Hình ảnh chiến thắng Điện Biên phủ qua tem bưu chính Việt Nam
    Ngày 07/5/1954, lá cờ “quyết chiến, quyết thắng” của Quân đội Nhân dân Việt Nam tung bay trên nóc hầm tướng De Castries, chiến dịch Điện Biên Phủ đã kết thúc thắng lợi, buộc Chính phủ Pháp phải ký Hiệp định Geneva về chấm dứt chiến tranh, lập lại hòa bình ở Đông Dương.
  • Sân chơi English Beat 2024 mùa 2 thành công tốt đẹp
    Sau hơn 2 tháng tổ chức, English Beat 2024 mùa 2 do mobiEdu phối hợp cùng các Sở Giáo dục và Đào tạo tổ chức đã chính thức thành công tốt đẹp tại 6 tỉnh trải dài trên toàn quốc.
  • Bia Trúc Bạch một kiệt tác, một di sản dẫn lối tinh hoa
    Từ Hoa Bia Saaz quý tộc vùng Zatec một kinh nghiệm bậc thầy tạo ra hương vị tinh túy bậc nhất đẳng cấp vượt thời gian, trải nghiệm đỉnh cao hoàn mỹ. Bia Trúc Bạch một kiệt tác, một di sản dẫn lối tinh hoa.
  • Khám phá đất và người xứ Nghệ trên không gian số
    Thời gian qua, Bảo tàng Nghệ An đã mạnh dạn đưa công nghệ vào hoạt động trưng bày, để tiếp cận và thu hút du khách. Du khách đến với Bảo tàng Nghệ An từ chỗ "cấm sờ tay vào hiện vật" nay có thể được chạm tay vào hiện vật, cổ vật, được khám phá các danh lam, thắng cảnh, lịch sử, con người xứ Nghệ, thông qua không gian số 3D; khám phá kho dữ liệu lịch sử đã được số hóa... giúp Bảo tàng Nghệ An ngày càng hút khách, nhất là giới trẻ.
  • Báo chí và học giả quốc tế ca ngợi Chiến thắng Điện Biên Phủ
    Báo Resumen Latinoamericano của Argentina những ngày qua liên tục đăng các bài viết cùng nhiều hình ảnh tư liệu minh họa, ca ngợi Chiến thắng Ðiện Biên Phủ của nhân dân Việt Nam.
Đừng bỏ lỡ
Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P2)
POWERED BY ONECMS - A PRODUCT OF NEKO