Phát hiện tấn công mạng dựa trên phân tích dữ liệu lớn
Xu hướng - Dự báo - Ngày đăng : 20:18, 03/11/2015
XU HƯỚNG GIA TĂNG CỦA CÁC CUỘC TẨN CÔNG ĐÁNH CẮP VÀ PHÁ HỦY DỮ LIỆU
Tháng 10/2014, ngân hàng lớn nhất nước Mỹ, JPMorgan Chase đã bị tin tặc xâm nhập vào hơn 90 máy chủ, đánh cắp được thông tin cá nhân của 83 triệu khách hàng là hộ gia đình và doanh nghiệp. Trước đó, vào tháng 5, eBay thông báo, họ bị tấn công nghiêm trọng và 145 triệu tài khoản của người dùng đã bị đánh cắp. Trước eBay là Adobe, Evernote, Sony... cùng hàng loạt các đại gia công nghệ bị mất hàng chục cho đến hàng trăm nghìn tài khoản của khách hàng. Tại Việt Nam, vụ tấn công vào VCCorp trong tháng 10/2014, nhằm phá hủy dữ liệu của công ty này, cũng được đánh giá là một cuộc tấn công tinh vi và gây ra thiệt hại lên đến vài chục tỷ đồng.
Có nhiều vấn đề để bàn trong các vụ tấn công này, điển hình như cuộc tấn công vào eBay. Ngoài con số thiệt hại 145 triệu tài khoản được chú ý, chúng ta còn thấy có 1 yếu tố quan trọng nữa mà ít người để ý hơn. Đó là: eBay biết họ bị tấn công sau bao nhiêu lâu ? Một thực tế khá buồn đó là cuộc tấn công vào eBay diễn ra từ cuối tháng 2/2014, vậy mà mãi tới tháng 5/2014, họ mới phát hiện ra. Nhưng eBay không phải là kẻ cô độc trong việc này vì hầu hết các cuộc tấn công trên đều xảy ra trong tình trạng tương tự. Nạn nhân không hề biết mình đã bị xâm nhập, đánh cắp dữ liệu trong một khoảng thời gian dài.
Kẻ tấn công cũng không hề nhắm trực tiếp vào máy chủ của eBay, nơi sẽ khó khăn hơn để tìm lỗ hổng và có thể có nhiều tầng lớp bảo vệ. Cũng giống nhiều cuộc tấn công gần đây, con đường mà kẻ tấn công khai thác lại chính là máy tính của những nhân viên trong hệ thống. Những máy tính này ít nhiều được cấp quyền để truy nhập vào các hệ thống máy chủ quan trọng hơn.
Trước sự gia tăng của các cuộc tấn công ngày càng tinh vi, có vẻ như các giải pháp phát hiện và ngăn chặn tấn công đang bị hụt hơi. Một điều gần như chắc chắn là các hãng đều đã trang bị những giải pháp phòng chống mã độc, phát hiện xâm nhập, tường lửa... tiên tiến. Tuy nhiên, kết quả là các mã độc vẫn phát tán được vào các máy tính bên trong hệ thống, các dữ liệu bị lấy trộm và gửi ra bên ngoài một cách trót lọt.
HỆ THỐNG GIÁM SÁT AN NINH MẠNG VÀ NHỮNG THÁCH THỨC TRƯỚC NHỮNG CUỘC TẨN CÔNG TINH VI
Một đặc điểm quan trọng là các giải pháp hiện nay hầu hết hoạt động dựa trên các cuộc tấn công đã biết trước. Tường lửa thì hoạt động theo luật, IDS/IPS thì hoạt động theo dấu hiệu nhận biết được định nghĩa, các AV thì theo các mẫu. Một vài tính năng thông minh cũng đã được đưa vào nhưng thực tế chưa giải quyết được vấn đề. Chính vì vậy, các hệ thống giám sát hiện nay, chưa đủ khả năng để phát hiện ra một sự "bất thường" xảy ra trong hệ thống.
Ngoài vấn đề hoạt động dựa chủ yếu vào luật hoặc dấu hiệu tấn công đã biết trước, các hệ thống giám sát hiện nay cũng đang gặp phải nhiều thách thức bắt nguồn từ hạn chế trong việc xử lý dữ liệu:
-Hạn chế về hiệu năng: Một hệ thống mạng của doanh nghiệp có thể gồm hàng chục đến hàng trăm máy chủ, hàng ngàn thiết bị được kết nối. Dữ liệu có thể lên đến vài TB/ngày. Chính vì vậy, việc tổng hợp phân tích các sự kiện xảy ra trong hệ thống mạng trở nên khó khăn do hệ thống giám sát không đủ năng lực để làm được việc này.
-Dữ liệu quá đa dạng: Các dữ liệu cần phân tích đến từ nhiều nguồn: tường lửa, máy chủ, bộ định tuyến, dịch vụ Web, DNS, email... Chưa kể, có những dữ liệu không có cấu trúc hoặc cấu trúc phức tạp như các gói tin lưu chuyển trong hệ thống mạng. Với sự đa dạng về dữ liệu, dẫn đến các hệ thống giám sát không dễ để tương thích và xử lý được chúng.
-Hầu hết thiếu việc phân tích dữ liệu theo ngữ cảnh: Các hệ thống giám sát về cơ bản là nhận diện từng sự kiện trong mạng xem nó có khớp với dấu hiệu tấn công đã được định nghĩa trước đó hay không. Thiếu việc đưa sự kiện đó vào ngữ cảnh của nhiều sự kiện khác xảy ra trước và sau đó. Có những sự kiện để đơn lẻ thì không thể phát hiện ra nguy hiểm, tuy nhiên nếu được đưa vào những ngữ cảnh thì đó lại là những dấu hiệu quan trọng để phát hiện ra tấn công.
HIỆN TẨN CÔNG MẠNG DỰA TRÊN PHÂN TÍCH DỮ LIỆU LỚN
Những thách thức được nêu ở trên đối với hệ thống giám sát lại là những ưu điểm của big data - dữ liệu lớn. Chính vì vậy, có thể áp dụng công nghệ dữ liệu lớn vào việc phân tích, giám sát và phát hiện ra các sự bất thường trong hệ thống kịp thời cảnh báo được những vụ tấn công tinh vi.
Trước hết, chúng ta cần biết, đặc điểm của dữ liệu lớn được mô tả bằng 3 chữ V.
-Volume (Dung lượng): Hệ thống dữ liệu lớn được thiết kế cho các bài toán xử lý hàng TB dữ liệu, với hàng tỷ bản ghi, giao dịch, các file và bảng có kích thước lớn.
-Velocity (Tốc độ): Các phương pháp xử lý dữ liệu lớn cho phép chúng ta có thể xử lý được dữ liệu theo lô, theo thời gian thực hay theo các luồng dữ liệu ồ ạt kéo về.
-Variety (Đa dạng): Dữ liệu có thể là có cấu trúc, không có cấu trúc phù hợp để xử lý trên nền dữ liệu lớn.
Đặc biệt, dữ liệu lớn cho phép chúng ta có thể thực thi được nhiều thuật toán data mining để gom nhiều sự kiện lại vào các ngữ cảnh, dẫn đến có thể phát hiện những bất thường xảy ra.
Một số ví dụ của sự bất thường như sau: Máy tính A trong 1 tháng, lưu lượng mạng trung bình một ngày là 400 MB, tự nhiên vào một ngày chủ nhật lại tăng lên 7GB. Đó là 1 ví dụ của sự bất thường. Máy tính C, chưa bao giờ đăng nhập vào các máy chủ trong vùng DMZ, cho đến một hôm xuất hiện 1 sự kiện đăng nhập thành công vào máy chủ Mail, đó cũng có thể là ví dụ của một sự bất thường. Như vậy, sẽ có nhiều thể loại bất thường: bất thường về băng thông, bất thường về các kết nối, bất thường về các tên miền/ địa chỉ IP, bất thường trong các giao thức...
Như vậy, với sự hỗ trợ của dữ liệu lớn, các hệ thống giám sát an ninh mạng có thể giải quyết được các hạn chế tính toán, phát hiện được các sự bất thường trong hệ thống dẫn đến những cảnh báo quan trọng về các vụ xâm nhập. Dữ liệu lớn sẽ giải quyết được đòi hỏi về tính thời gian thực cao, lượng dữ liệu xử lý cực lớn cả hiện tại và quá khứ, các thuật toán phức tạp trong việc phát hiện sự bất thường.
Để xây dựng 1 hệ thống giám sát mạng dựa trên bigdata, trước hết cần bố trí một hạ tầng mạng gồm 4 máy chủ, cấu hình tối thiểu: 8 GB RAM, 2,5 GHz CPU lõi kép, dung lượng ổ cứng tùy theo lượng log cần phân tích, có thể là từ 1-5 TB. Sau đó, cần cài đặt hạ tầng dữ liệu lớn là Apache Hadoop - và các thành phần liên quan. Hiện nay có 2 nhà phân phối Hadoop là Cloudera và Hortonworks để bạn có thể lựa chọn cài đặt. Các thành phần không thể thiếu trên Hadoop cần sử dụng là Flume: thu thập log từ các nguồn về; Spark: nền tảng xử lý dữ liệu lớn thời gian thực và một số thành phần khác. Ngoài ra, bạn cần có kiến thức về lập trình Map/Reduce để triển khai các thuật toán về phân tích dữ liệu lớn phát hiện sự bất thường.
Tài liệu tham khảo
[1].Big Data Analytts for Security Intelligence, https://downloads. cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Analytics_ for_Security_Intelligence.pdf.
[2]. Big data security analytics mantra: Collect and analyze everything, http://www.networkworld.com/article/2449509/cisco- subnet/big-data-security-analytics-mantra-collect-and-analyze- everything.html.
[3].How Big Data is changing the security analytics landscape. http://www.techrepublic.com/blog/big-data-analytics/how-big-data-is-changing-the-security-analytics-landscape/.
Nguyễn Minh Đức
(TC TTTT Kỳ 2/11/2014)