Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P1)

03/11/2015 20:18
Theo dõi ICTVietnam trên

Thư điện tử (email) đã và đang trở thành phương tiện liên lạc có chi phí thấp, nhanh chóng và hiệu quả nhất, đóng vai trò ngày một quan trọng trong công việc và đời sống hàng ngày.

VẤN NẠN THƯ RÁC TRÊN THẾ GIỚI VÀ Ở VIỆT NAM

Thư điện tử (email) đã và đang trở thành phương tiện liên lạc có chi phí thấp, nhanh chóng và hiệu quả nhất, đóng vai trò ngày một quan trọng trong công việc và đời sống hàng ngày.

Số lượng thư điện tử của mỗi người dùng nhận được hàng ngày là khác nhau, tuy nhiên không phải tất cả các thư người dùng nhận được đều chứa thông tin họ cần quan tâm hoặc muốn quan tâm; thậm chí nhiều người dùng cùng lúc nhận được những thư điện tử có nội dung tương tự nhau. Những thư điện tử có chung đặc điểm như vậy được gọi chung là thư rác (spam mail). Theo thống kê của Kaspersky Lab tháng 1/2014 [1], thư rác chiếm đến trên 65% toàn bộ lượng thư được trao đổi trong không gian mạng. Thống kê tháng 10/2014 của TrendMicro [2] cho thấy, số lượng thư rác phát tán hàng ngày trên thế giới lên tới một trăm nghìn tỉ thư. Các loại thư rác phổ biến bao gồm: quảng cáo sản phẩm dịch vụ (chiếm đến 36% tổng số thư rác); truyền bá thông tin không lành mạnh, xuất xứ đáng ngờ hoặc bất hợp pháp...

Tại Việt Nam, tỉ lệ thư rác chiếm tới 88% (so với các nước khác như Mỹ 46%, Pháp 76%, Trung Quốc 83%) [2]. Tính đến quý 1 năm 2014, Việt Nam đang đứng thứ 8 trên thế giới về mật độ phát tán thư rác hiện nay [1]. Do đó, có thể thấy các giải pháp lọc thư rác ở Việt Nam vẫn còn chưa hiệu quả, cần phải có các giải pháp phù hợp hơn.

Bài viết giới thiệu một sản phẩm lọc thư rác do nhóm giảng viên và sinh viên Viện Công nghệ Thông tin và Truyền thông, trường Đại học Bách khoa Hà Nội xây dựng trong khuôn khổ chương trình nghiên cứu số 15 về Đảm bảo an toàn an ninh cho các hệ thống thông tin và truyền thông. Sản phẩm này nhằm mục tiêu hỗ trợ người dùng hệ thống thư điện tử Zimbra lọc thư rác tiếng Việt và tiếng Anh hiệu quả hơn.

NỀN TẢNG ZIMBRA MAIL SERVER

Zimbra mail server là một hệ thống quản lý thư điện tử được cài đặt trên máy chủ đa nền tảng. Đây là một công cụ đươc phát triển lần đầu bởi hãng cùng tên Zimbra. Sau khi qua tay nhiều công ty như Yahoo, VMware; mảng sản phẩm này được bán lại cho Telligent System và đổi tên trở lại là Zimbra. Nền tảng của sản phẩm đươc xây dựng dựa hoàn toàn trên các công cụ mã nguồn mở như OpenLDAP, MySQL... Hãng cung cấp 4 phiên bản, gồm 3 phiên bản tính phí; hỗ trợ người dùng về nhiều mặt hơn với các công cụ riêng do hãng tự phát triển; cùng một phiên bản không tính phí, cho phép người đặt tự tùy chỉnh mã nguồn theo ý muốn của mình. Phiên bản miễn phí hiện tại của Zimbra không những chỉ giúp người dùng trong việc soạn-gửi-nhận thư điện tử mà còn hỗ trợ trong việc sắp xếp lịch làm việc, quản lý danh sách liên lạc một cách khá hiệu quả. Chính vì tính mở, Zimbra đã được thừa hưởng rất nhiều tinh túy của cộng đồng phát triển mã nguồn mở trên thế giới. Người dùng tùy chỉnh các chức năng của Zimbra qua một plugin riêng, được gọi là Zimlet để thêm các chức năng tùy thích phục vụ nhu cầu của chính mình.

Bên cạnh đó, Zimbra không chỉ hỗ trợ một hệ thống nhỏ với một máy chủ và một vài tài khoản, mà còn có thể hỗ trợ nhiều máy chủ phân tán với hàng nghìn tài khoản khác. Đồng thời, đây có thể nói là công cụ then chốt cho các nhà quản trị, do hỗ trợ những phương thức sao lưu phục hồi một cách nhanh chóng, dễ bảo trì và cũng rất dễ mở rộng khi tích hợp webservice với các ứng dụng sẵn có.

Chính vì các tiện lợi kể trên cùng rất nhiều ưu điểm khác, Zimbra mail server đang được rất nhiều tổ chức, doanh nghiệp quy mô nhỏ và vừa sử dụng để hỗ trợ cho nhân viên của mình.

CHỐNG THƯ RÁC TRONG ZIMBRA MAIL SERVER VÀ CÁC VẤN ĐỀ CÒN TỒN TẠI

Trên nền tảng Zimbra, có rất nhiều giải pháp nhằm chặn một email theo ý muốn. Điều này góp phần hạn chế đáng kể lượng thư rác nhận được. Tuy nhiên, mỗi giải pháp đều có những điểm tích cực và hạn chế nhất định.

Hiện tại, phương pháp sử dụng danh sách đen (black list) và danh sách trắng (white list) đang được khá nhiều công ty sử dụng nhằm chặn thư rác. Với phương pháp này, các địa chỉ email có sẵn trong danh sách trắng sẽ được duyệt qua thẳng mà không cần kiểm tra. Ngược lại, các email đã có trong danh sách đen sẽ không được gửi đến người dùng và bị chặn lại. Theo đánh giá, đây là một phương pháp khá hay, đảm bảo 99,99% email gửi đến người dùng sẽ được lọc cẩn thận. Tuy nhiên, việc cập nhật nguồn dữ liệu cho cả hai danh sách sẽ tốn rất nhiều thời gian và công sức, cũng như các địa chỉ thư điện tử ngoài cả hai danh sách này sẽ không được kiểm tra hợp ly. Điều này sẽ gây ra mất các thư hợp lệ cũng như để lọt thư rác.

Một giải pháp khác được triển khai là yêu cầu người gửi xác thực lại thư điện tử của chính mình. Như đã biết, phần lớn thư rác là do các bộ gửi tự động, vì vậy, khi không nhận được xác thực từ phía gửi, ta có lý do để đưa địa chỉ email này vào danh sách đen. Ngược lại, nếu đã nhận được xác thực, ta có thể đưa địa chỉ đó vào danh sách trắng. Phương pháp này cải thiện cách lọc đã nêu ở trước hơn rất nhiều so với việc xử lý các địa chỉ thư điện tử chưa có trong cả hai danh sách. Tuy nhiên, cách làm này đòi hỏi người dùng cần nhiều thao tác hơn, làm phức tạp vấn đề. Người dùng cũng cần phải trực tiếp kiểm tra lại email xác thực thay vì để máy tự động làm vì độ chính xác đòi hỏi khá cao việc sử dụng tri thức của con người.

Chính vì các khuyết điểm như vậy, các giải pháp nhằm phân tích nội dung cùng tiêu đề của một thư điện tử đã được tìm hiểu và nghiên cứu. Trong số các sản phẩm hiện tại, SpamAssasin đươc đánh giá rất cao do tính hiệu quả khi chặn một thư điện tử viết bằng tiếng Anh và các ngôn ngữ la tinh khác. Tỉ lệ thành công của bộ lọc này tích hợp trong Zimbra mail server là 95%. Tuy nhiên, SpamAssasin đã lộ một điểm yếu khi phân tích các thư điện tử được viết bằng tiếng Việt. Do đặc thù của ngôn ngữ bao gồm từ đơn và từ ghép, bộ lọc của SpamAssasin đã để sót khá nhiều email, cũng như chặn nhiều email hợp lệ của người gửi do lỗi phân tích từ vựng chưa chính xác.

Chính vì vậy, việc tạo ra một bộ lọc thư rác tiếng Việt hỗ trợ cho nền tảng Zimbra mail server đang rất cấp thiết cho các doanh nghiệp và tổ chức của Việt Nam.

GIẢI PHÁP BỘ LỌC THƯ ĐIỆN TỬ CHỨA TIẾNG VIỆT CHO NỀN TẢNG ZIMBRA MAIL SERVER

Ý tưởng của sản phẩm là sử dụng bộ lọc địa chỉ theo danh sách đen-trắng kết hợp cách duyệt nội dung thư điện tử của SpamAssasin. Khi có email gửi đến, nó sẽ được kiểm tra trong cả 2 danh sách trên, ứng với việc phát hiện đây có phải là thư rác hay không. Nếu email đó không nằm trong danh sách nào, tiếp theo bộ lọc sẽ thực hiện phân tích nội dung thư điện tử giống của SpamAssasin, với lõi là phương pháp học máy kết hợp bộ phân tích từ vựng tiếng Việt.

Một email chỉ có thể được đánh giá chính xác và khách quan nhất là thư rác hay thư hợp lệ bằng cách đọc trực tiếp nội dung. Kết hợp tri thức của con người cùng trí tuệ nhân tạo của máy tính giúp việc đánh giá thư điện tử chính xác và đơn giản hơn.

Quy trình bộ lọc thư điện tử được thể hiện trong Hình 1.

Trước tiên, khi một thư điện tử được gửi đến người dùng, địa chỉ của người gửi sẽ được kiểm tra trong danh sách đen qua một công cụ được nhóm nghiên cứu xây dựng. Nếu đã tồn tại, nó sẽ bị lọc và đưa vào danh sách thư rác; nếu chưa, thư tiếp tục được đi qua bộ xử lý xác định ngôn ngữ. Nếu tại đây thư điện tử được xác định là tiếng Việt, các thành phần của nó sẽ được chuyển qua bộ xử lý do nhóm nghiên cứu xây dựng. Nếu được xác định là các ngôn ngữ khác, thành phần SpamAssasin tích hợp sẵn trong Zimbra sẽ xử lý vấn đề phân loại này.

Thông tin của thư điện tử tiếp tục đươc đi đến bộ tách từ, với nội dung được phân loại thành các phần tử bé nhất của ngôn ngữ là từ vựng, để tiếp tục cho khâu phân tích ở thành phần sau. Module học máy thu thập hai danh sách gồm có danh sách trắng chứa tập hợp các email hợp lệ đã được kiểm duyệt và danh sách đen gồm các email được cho là thư rác. Các phần tử được phân tách ở thư điện tử mới đến sẽ tiếp tục được so sánh với các phần tử mẫu ở trên để lấy ra trọng số của chúng. Dựa vào trọng số này, sau tính toán và so sánh với một mức cho trước, chúng ta có thể đánh giá đươc một email có phải là thư rác hay không.
Chương trình được triển khai dựa trên Zimlet, với mô hình hoạt động được mô tả như Hình 2.

Toàn bộ hệ thống phân loại trên được tích hợp bằng chương trình Java qua các file jar. Chúng được các Zimlet JSP tại server sử dụng. Khi một thư điện tử được gửi đến, javascript zimlet tại client sẽ gửi yêu cầu đề nghị phía server đánh giá email đã nhận được và đưa ra phân loại dựa trên các dữ liệu mẫu đã có.

Vũ Thị Hương Giang, Nguyễn Hương Giang

(còn nữa)

(TC TTTT Kỳ 2/11/2014)

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Một giải pháp lọc thư rác tiếng Việt cho hệ thống thư điện tử Zimbra (P1)
POWERED BY ONECMS - A PRODUCT OF NEKO