Microsoft và Intel hợp tác phát hiện, phân loại mã độc

Microsoft và Intel gần đây đã hợp tác trong một dự án nghiên cứu, khám phá một cách tiếp cận mới để phát hiện và phân loại phần mềm độc hại.

Được gọi là STAMINA (STAtic Malware-as-Image Network Analysis), dự án dựa trên một kỹthuật mới chuyển đổi các mẫu phần mềm độc hại thành cáchình ảnh màu xám và sau đó quét hình ảnh thànhcác mẫu vănbản và cấu trúc cụ thể thành các mẫu phần mềm độc hại.

STAMINA thực tế hoạt động như thế nào

Nhóm nghiên cứu Intel-Microsoft cho biết toàn bộ quá trình hoạtđộng tuân theo một số bước đơn giản. Việc đầu tiên bao gồm lấy một tệp đầu vào và chuyển đổi dạngnhị phân thành một luồng dữ liệu pixel thô.

Microsoft và Intel hợp tác phát hiện, phân loại mã độc - Ảnh 1. — Ảnh: Microsoft

Sau đó, các nhà nghiên cứu đã lấy luồng pixel một chiều (1D) này và chuyển đổi thành ảnh 2D để các thuật toán phân tích hình ảnh bình thường có thể phân tích luồng pixel này.

Độ rộng của hình ảnh được chọn dựa trên kích thước của tệp đầu vào (bảng dưới). Chiều cao khôngcố định và là kết quả của việc chia luồng pixel thô dựatheo giá trị độ rộng đã đượcchọn.

Microsoft và Intel hợp tác phát hiện, phân loại mã độc - Ảnh 2. — Ảnh: Intel, Microsoft

Sau khi ráp luồng pixel thô thành hình ảnh 2D bình thường, các nhà nghiên cứu thay đổi kích thước ảnh thu được thành kích thước nhỏ hơn.

Nhóm Intel và Microsoft cho biết việc thay đổi kích thước hình ảnh thô không "tác động tiêu cực đến kết quả phân loại" và đây là bước cần thiết để cácnguồn lực tính toán sẽ không phải làm việc với hình ảnh chứahàng tỷ pixel, khiến làm chậm việcxử lý.

Các hình ảnh đã đượcthay đổi kích thước sau đó được đưa vào mạng thần kinh sâu (deep neural network - DNN) được "đào tạo" trước để quét hình ảnh (ảnh 2D của chủng mãđộc) và phân loại nó là sạch hoặc bị nhiễmmã độc.

Microsoft cho biết hãng đã cung cấp một mẫu gồm 2,3 triệu băm tập tin PE (Có thể thực thi di động) để làm cơ sở cho nghiên cứu.

Các nhà nghiên cứu đã sử dụng 60% mẫu phần mềm độc hại đã biết để "huấn luyện" thuật toán DNN ban đầu, 20% tệp để xác thực DNN và 20% còn lại cho quy trình thử nghiệm thực tế.

Nhóm nghiên cứu cho biết STAMINA đã đạt được độ chính xác 99,07% trong việc xác định và phân loại các mẫu phần mềm độc hại, với tỷ lệ nhiễm mãđộc giả là 2,58%.

"Các kết quả chắc chắn khuyến khích việc sử dụng kỹthuật học tập chuyển sâu (deep transfer learning) cho mục đích phân loại phần mềm độc hại", Jrif Parikh và Marc Marino, hai nhà nghiên cứu của Microsoft, cho biết.

Đầu tư của Microsoft cho học máy

Nghiên cứu này là một phần trong những nỗ lực gần đây của Microsoft để cải thiện việcphát hiện phần mềm độc hại bằng các kỹ thuật học máy.

STAMINA đã sử dụng một kỹ thuật gọi là học sâu (deep learning), là một phần của họcmáy (ML), một nhánh của trí tuệ nhân tạo (AI), dùng để chỉ các mạng máy tính thông minh có khả năng tự học từ dữ liệu đầu vào được lưu trữ ở định dạng không có cấu trúc hoặc không được gắn nhãn - trong trường hợp này là một nhị phân phần mềm độc hại ngẫu nhiên.

Microsoft cho biết, mặc dù STAMINA chính xác và nhanh chóng khi làm việc với các tệp nhỏ hơn, nhưng nó lại chưa thể làm việc với các tệp lớn hơn.

"Đối với các ứng dụng kích thước lớn hơn, STAMINA trở nên kém hiệu quả do những hạn chế trong việc chuyển đổi hàng tỷ pixel thành hình ảnh JPEG và sau đó thay đổi kích thước chúng", Microsoft cho biết trong một bài đăng trên blog vào tuần trước.

Trong một cuộc phỏng vấn với ZDNet hồi đầu tháng này, Tanmay Ganacharya, Giám đốc Nghiên cứu bảo mật của Microsoft Threat Protection, cho biết Microsoft hiện phụ thuộc rất nhiều vào việc học máy để phát hiện các mối đe dọa mới và hệ thống này sử dụng một module học máy khác đang được triển khai cho các hệ thống kháchhàng hoặc máy chủ Microsoft.

Microsoft hiện sử dụng các công cụ học máy phía máy khách, các công cụ học máy phía đám mây, các module học máy để nắm bắt các chuỗi hành vi hoặc nắm bắt nội dung của tệp.

Dựa trên các kết quả được báo cáo, STAMINA có thể là một trong những module họcmáy mà chúng ta có thể sớm thấy được triển khai tại Microsoft như một cách để phát hiện phần mềm độc hại.

Hiện tại, Microsoft có thể làm cho phương pháp này hoạt động tốt hơn các công ty khác chủ yếu nhờ vào dữ liệu tuyệt đối mà hãng sở hữu từ hàng trăm triệu lượt cài đặt Windows Defender.

Microsoft có lợi thế vì có các cảm biến mạng cung cấp nhiều tín hiệu đáng chú ý qua email, thông qua danh tính, qua điểm cuối và có thể kết hợp chúng để thực hiện phân loại mã độc.