Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P2)

03/11/2015 20:18
Theo dõi ICTVietnam trên

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác.

ĐÁNH GIÁ VÀ THỬ NGHIỆM CHƯƠNG TRÌNH

Nhóm nghiên cứu đã thu thập dữ liệu mẫu gồm các thư điện tử được coi là hợp lệ và các thư rác với mục đích dùng làm dữ liệu mẫu để kiểm thử và đánh giá hệ thống. Tập hợp dữ liệu mẫu gồm các từ rác, ví dụ như "bạn dự định...", "bạn sắp... cũng đã được thu thập qua một công cụ riêng. Kết quả thu được sau quá trình kiểm thử là khá khả quan.

Dữ liệu kiểm thử đầu tiên là một email không có tiêu đề, chỉ có nội dung. Chương trình đã phát hiện được bất thường của email này và đưa nó vào danh sách thư rác, đồng thời nhận diện địa chỉ của người gửi này, đưa vào danh sách đen, nhằm phát hiện cho lần nhận kế tiếp.

Tập dữ liệu tiếp là của người gửi trên, với cả tiêu đề và nội dung email đầy đủ. Chương trình đã tự nhận diện được nguồn gửi từ danh sách đen, đồng thời đưa thư điện tử này vào tập thư rác.

Nhóm nghiên cứu tiếp tục thử nghiệm thư điện tử khác với một người dùng mới, nội dung mới và không có dấu hiệu bất thường. Đây là một thư điện tử quảng cáo có thể thấy từ các trang web thời trang, với các loại quần áo và giá tiền tương ứng. Có rất nhiều email hợp lệ mang giá tiền và sản phẩm đặc trưng, nhưng điều khiến cho hệ thống phát hiện ra email này là thư rác vì nó chứa các từ được lấy từ dữ liệu mẫu đã được coi là rác. Ví dụ như cụm từ "E-mail này dùng để gửi cho khách hàng. Vui lòng truy cập Thông tin cá nhân để từ chối nhận mail". Nhờ các trọng số kết hợp với nhau lấy từ tập dữ liệu mẫu, chương trình đã nhận ra được đây là thư rác.

Dữ liệu kiểm thử tiếp theo được lấy từ một lời mời đến buổi tiệc của một nhà hàng. Như thường lệ, với các công ty và doanh nghiệp, việc nhân viên của họ nhận được lời mời là khá thường xuyên. Nhưng điều khiến thư điện tử này trở nên bất thường là nó chứa các thông tin không giống như là một lời mời thông thường, được biểu hiện qua các từ ngữ như:

-"Bạn là một người trẻ tuổi, độc thân và nghiêm túc trong tình cảm?".

-"Bạn mong muốn tìm kiếm một nửa của mình nhưng cảm thấy thật khó khăn?".

-"Phí tham dự: 150,000 VNĐ /1 người (đã bao gồm một đồ uống)".

Với các nội dung nhạy cảm như vậy, chương trình đã bắt được các dấu hiệu đặc trưng của thư rác và thực hiện phân loại đúng như ý muốn của người dùng.

Đối với các thư hợp lệ, chương trình đạt hiệu quả cao khi cho phần lớn các thư loại này đi qua, với xác suất đánh giá sai khá thấp.

So sánh với tỉ lệ lọc thư rác tiếng Việt của SpamAssasin, tỉ lệ lọc thư rác tiếng Việt là khá cao khi số lượng dữ liệu mẫu tăng lên từ 100 đến 400 (Hình 3).


Thậm chí, chương trình của nhóm nghiên cứu còn giảm bớt tài nguyên sử dụng và thời gian tính toán so với SpamAssasin do đã lọc qua các thư điện tử nằm trong danh sách đen.

Tổng số trường hợp các email được thử nghiệm gồm có 3.552 thư điện tử, trong đó có 2.551 thư điện tử hợp lệ và 1.001 thư rác. Sau khi kiểm thử với dữ liệu trên, nhóm nghiên cứu thu được kết quả sau:

-Số lượng thư điện tử hợp lệ phát hiện đúng: 2.530.

-Số lượng thư điện tử hợp lệ bị phát hiện sai: 21.

-Số lượng thư rác được phát hiện đúng: 993.

-Số lượng thư rác bị phát hiện sai: 98.

Như vậy, tỉ lệ thư hợp lệ được phát hiện đúng là khá cao với hơn 99%, cùng tỉ lệ bỏ sót thư rác chỉ đạt gần 10% đối với tổng số 3.552 trường hợp kiểm thử. Các tỉ lệ này hoàn toàn có thể đươc cải thiện khi gia tăng dữ liệu mẫu phục vụ học máy. Với nhiều tri thức hơn, phần mềm hoàn toàn có thể đưa ra đươc việc phân loại đạt hiệu quả cao hơn.

Tài liệu tham khảo

[1].http://usa.kaspersky.com/internet-security-center/threats/ spam-statistics-report-ql-2014.
[2].http://www.trendmicro.com/us/security-intelligence/ current-threat-activity/global-spam-map/.[3].ZimbraCollaboration Suite 8.0.
http://wiki.zimbra.com/wiki/ZCS_8.0.
[4].Zimlet Developers Guide: Introduction. http://wiki.zimbra.com/wiki/Zimlet_Developers_Guide:Introduction.

Vũ Thị Hương Giang, Nguyễn Giang Trường

(TC TTTT Kỳ 2/11/2014)

Nổi bật Tạp chí Thông tin & Truyền thông
  • Bộ KH&CN ban hành Thông tư đầu tiên sau sau hợp nhất
    Ngày 31/3/2025, Bộ Khoa học và Công nghệ (KH&CN) đã ban hành Thông tư số 01/2025/TT-BKHCN về việc sửa đổi, bổ sung một số nội dung tại Phụ lục ban hành kèm theo Thông tư số 08/2021/TT-BTTTT ngày 14/10/2021 quy định Danh mục thiết bị vô tuyến điện được miễn giấy phép sử dụng tần số vô tuyến điện, điều kiện kỹ thuật và khai thác kèm theo.
  • Bảo đảm an toàn dữ liệu người sử dụng dịch vụ bưu chính là ưu tiên hàng đầu
    Mới đây, Bộ KH&CN vừa phát hành văn bản số 509/KHCN-BC gửi các doanh nghiệp bưu chính về việc tăng cường công tác bảo đảm an toàn dữ liệu người sử dụng dịch vụ bưu chính.
  • Tăng cường huy động nguồn lực KOLs trong hoạt động thông tin đối ngoại
    Năm 2024, Cục Thông tin đối ngoại (TTĐN) đã thành công việc đưa TTĐN lên không gian mới - không gian mạng - với nhiều kết quả đáng ghi nhận. Trong đó, có việc thí điểm thành công trong huy động những người có ảnh hưởng lớn trên mạng xã hội (MXH) cùng chung tay trong thực hiện nhiệm vụ cơ bản thứ hai của TTĐN đó là quảng bá hình ảnh quốc gia.
  • Tác giả Nhật Bản với những ý tưởng lôi cuốn trẻ đọc sách
    Với máy ảnh bằng bìa giấy, các món đồ chơi hết sức đơn giản bằng kẹp quần áo và giấy màu…, tác giả Yuichi Kimura với mái đầu bạc phơ đã khiến cho khoảng 20 em nhỏ ở nhiều lứa tuổi quên hẳn đi những thiết bị điện tử, game hay những trò giải trí cuốn hút khác từ công nghệ.
  • Microsoft và 15 cột mốc định hình tầm nhìn về AI
    Gã khổng lồ công nghệ Microsoft sắp bước qua cột mốc 50 năm thành lập với nhiều thách thức trong thời đại trí tuệ nhân tạo (AI). Hãy cùng khám phá cách Microsoft sẽ phát triển nền tảng, công cụ và cơ sở hạ tầng AI cho tương lai.
Đừng bỏ lỡ
Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P2)
POWERED BY ONECMS - A PRODUCT OF NEKO