Động lực phát triển dữ liệu lớn
Diễn đàn - Ngày đăng : 20:58, 03/11/2015
Định luật Moore đã mô tả năng lực tính toán tăng gấp đôi sau mỗi chu kỳ 18 tháng với chi phí không đổi. Nghĩa là, ta có thể tăng gấp đôi năng lực hoặc giảm một nửa chi phí sau 1,5 năm. Định luật Moore đã được kiểm nghiệm hơn 50 năm qua, và trong khi định luật này sẽ gặp phải các giới hạn vật lý vào khoảng năm 2020 thì với sự xuất hiện của các công nghệ mới, thời điểm giới hạn này có thể là sau năm 2020.
Thực tế, chi phí lưu trữ hiện nay cho các phương tiện lưu trữ số đã giảm nhanh hơn cả chi phí tính toán. Chẳng hạn, với cùng một lượng dữ liệu lưu trữ, năm 1970 sẽ mất khoảng 150.000 USD tuy nhiên hiện nay chỉ mất 0,01 USD. Do đó, việc lưu trữ thông tin số hiện này là rất rẻ đồng thời tốc độ lưu trữ là rất nhanh.
Ngoài ra, các công cụ phần mềm để quản lý thiết bị lưu trữ số cũng có tiến bộ rất lớn, cho phép tiếp cận cực nhanh. Tuy nhiên, đây mới là một nửa câu chuyện. Nửa còn lại nằm ở sự gia tăng của cơ sở dữ liệu trong 15 năm qua hoặc khả năng lưu trữ dữ liệu phi cấu trúc, hơn là các dữ liệu chính xác cao và có cấu trúc chặt chẽ vào những năm 1980.
Chúng ta giờ đây mặc nhiên có thể quyết định giữ và lưu trữ dữ liệu đã thu thập chứ không nhất thiết phải xóa bớt dữ liệu do giá thành lưu trữ đã giảm rất nhiều. Nhưng có thêm hai hiện tượng góp phần vào sự tràn ngập dữ liệu hiện nay. Thứ nhất, sự cái thiện của công nghệ cảm biến làm cho có thể chuyển đổi nhiều hoạt động của con người thành dữ liệu, ổn định với chi phí thấp. Chỉ hai thập kỷ trước, việc nắm bắt thông tin vị trí (ví dụ qua các máy thu GPS) là tương đối tốn kém. Thì giờ đây, các chíp này rất rẻ và còn có thể được kết hợp với các công nghệ định vị khác để tăng cường độ chính xác. Người sử dụng đang tận dụng khả năng mới này. Biểu đồ trong Hình 1 cho thấy rằng ¾ người sở hữu điện thoại thông minh tìm đường qua điện thoại – cho phép hiển thị vị trí của họ. Nhưng số lượng người trong nhóm này dùng dịch vụ để tìm kiếm bạn bè của họ thì lại ít hơn rất nhiều.
* Thay đổi cách diễn đạt một chút so với khảo sát trước. Nguồn: Dự án khảo sát Internet và cuộc sống người Mỹ của Trung tâm nghiên cứu Pew. Hình 1. Việc sử dụng thông tin vị trí và dịch vụ xã hội của thuê bao điện thoại thông minh |
Các bộ cảm biến cũng có mặt ở khắp mọi nơi đối với chuyển động, gia tốc cho môi trường (nhiệt độ ,ấp suất, độ sáng UV), cho y tế (nhịp tim, mức ô-xi trong máu, thậm chí là mức đường trong máu). Để minh họa sự phong phú này, vào giữa những năm 2000, các cảm biến được đặt ở sân bóng rổ thí nghiệm để đo lực, vị trí và đường đi – và quan trọng hơn là dự đoán liệu cú ném có vào rổ hay không và tại sao không. Các bộ cảm biến sẽ còn tiến xa hơn, thu thập các thông tin về mùi với độ chính xác lớn hơn hiện nay. Các cảm biến khác thu thập thông tin về sự rung động, khối lượng, kích thước và các tính chất vật lý khác.
Có thể nói, cảm biến linh hoạt nhất chính là con người. Dữ liệu phát ra về hoạt động quan trọng hơn là về những người khác trong mạng xã hội, hoạt động thể thao, sức khỏe và các nền tảng dữ liệu tự đánh giá cho các phần quan trọng khác của lượng dữ liệu đang tăng lên.
Trong khi nhiều dữ liệu chúng ta tạo ra, chúng ta tin là bằng chứng và thậm chí là điều nhận thấy được (ta viết 1 e-mail và ta nhìn thấy kết quả), chúng ta cũng để lại đằng sau dấu vân tay trong suốt ở bất kỳ nới nào ta tới. Chúng ta có một chiếc điện thoại biết sự chuyển động của ta, nhưng thế còn camera giám sát hình ảnh của chúng ta thì sao; máy quét ở sân bay biết ta di chuyển mang theo gì; thẻ tín dụng biết thói quen ăn uống và món năn ưa thích? Ô tô của bạn biết bạn lái đi đâu, khi nào và tốc độ ra sao; thẻ thư viện biết ta đọc sách nào; bộ giám sát sức khỏe (nếu bạn sử dụng) biết thời gian và địa điểm bạn đi bộ, chạy, đạp xe đạp và thậm chí nhịp tim của bạn. Mọi dữ liệu này có thể được ghi, lưu trữ và trao đổi, và đôi khi là chia sẻ vào dịp nào đấy. Tóm lại, những dữ liệu nơi bạn tới, vị trí hiện nay của bạn và ban sắp đi đâu có thể được thu thập nhanh chưa từng có.
Trong một thử nghiệm mới đây, và bài báo kết qủa thu được của 3 thành viên Khoa khoa học máy tính ở Đại học Rochester (New York, Mỹ) khám phá mối liên hệ giữa vị trí của con người, tương tác của họ và quan hệ xã hội của họ qua một mạng xã hội. Thật ngạc nhiên, kể cả khi bạn cố tình tạo ra tình trang tự online “tối” – làm cho mình ở trạng thái cá nhân, không ai nhìn thấy – phương pháp phân tích này (gọi công trình của họ là ‘Flap’) vẫn có thể đoán vị trí vật lý của bạn trong vòng 100 mét với độ chính xác tới 47%.
Hiện tượng thứ hai là tốc độ mạng. Băng thông dữ liệu hiện đang tiếp tục tăng cao trên khắp thế giới cả trong mạng hữu tuyến và vô tuyến. Các mạng vô tuyến LTE được triển khai ở nhiều thành phố lớn trên toàn cầu cung cấp tốc độ băng rộng bằng các mạng hữu tuyến chỉ vài năm trước. Hơn nữa, các hoạt động tăng cường mạng cáp biển và mạng backbone đã kết nối các vùng địa lý khắp thế giới vào Internet còn chưa được phục vụ. Đông Phi là một ví dụ ở đây. Khi mạng mạnh lên, ngày càng có nhiều dữ liệu được chia sẻ, trao đổi, nhưng quan trọng hơn là được kết hợp và phân tích cùng nhau để đạt được những ưu điểm của Dữ liệu lớn.
Tóm lại, hai động lực chính thúc đẩy phát triển dữ liệu lớn là: (1) khả năng lưu trữ dung lượng lớn, giá thành rẻ cùng với sự phát triển của các bộ cảm biến giúp thu thập nhiều loại dữ liệu khác nhau làm cho lượng dữ liệu bùng nổ nhanh chóng; (2) Tốc độ truy cập mạng nhanh hơn làm cho việc dữ chia sẻ, trao đổi dữ liệu nhanh chóng dễ dàng hơn.
Tài liệu tham khảo
[1]. Andrew J Haire and Viktor Mayer-Schonberger, Mayer Big Data - Opportunity or Threat, ITU, 6/2014.
[2]. Pingdom.com
[3]. PR Newswire, Altior’s AltraSTAR – Hadoop Storage Accelerator…, 05/2014.
Quang Hưng