Điều gì đang thúc đẩy sự bùng nổ của kho dữ liệu đám mây

Diễn đàn - Ngày đăng : 20:02, 12/11/2018

Sự ra đời của những nhà kho dữ liệu mạnh mẽ trên đám mây đang thay đổi bộ mặt của phân tích dữ liệu lớn khi các công ty di chuyển khối lượng công việc của họ vào đám mây. Theo các nhà phân tích và giám đốc điều hành đám mây, hiện tượng này đang tăng tốc, phần lớn nhờ vào tiềm năng tiết kiệm chi phí, khả năng phân tích các tập dữ liệu lớn và loại bỏ những rắc rối trong việc quản lý các cụm được cài đặt tại doanh nghiệp.

Kết quả hình ảnh cho What’s Driving the Cloud Data Warehouse Explosion

Dịch vụ web Amazon (Amazon Web Services-AWS) được đa số công nhận là người khởi động làn sóng lưu trữ dữ liệu đám mây (Cloud Data Warehousing-CDW) với Redshift. Kể từ khi tung ra nó vào năm 2012, AWS đã thu hút 6.500 khách hàng đến Redshift và vẫn duy trì vị trí đứng đầu nhờ vào sự tích hợp với danh mục dịch vụ đa dạng của AWS, theo một báo cáo của Forrester về CDW được phát hành tuần trước.

Nhưng AWS Redshift đang phải đối mặt với cạnh tranh gay gắt, theo báo cáo của Forrester, xác định tổng cộng có 14 nhà cung cấp trong lĩnh vực CDW. Những đối thủ trong tầm bắn của AWS bao gồm Google Cloud, Snowflake và Oracle, những công ty cũng được Forrester xác định là các nhà lãnh đạo CDW trong báo cáo của mình.

Snowflake, kêu gọi thành công 450 triệu đô la đầu tư liên doanh vào tháng trước, đã phát triển nhanh chóng nhờ vào tính dễ sử dụng, hiệu suất cao và chi phí thấp cho việc cung cấp dựa trên SQL của mình. Trong khi đó, BigQuery của Google Cloud nổi bật với tích hợp AI và các dịch vụ dữ liệu khác. Oracle góp tên vào danh sách những nhà lãnh đạo CDW của Forrester nhờ vào kho dữ liệu tự động mới của mình (Autonomous Data Warehouse-ADW).

Dễ sử dụng là một trong những nhân tố thúc đẩy lớn nhất của CDW, theo nhà phân tích hàng đầu của Forrester, Noel Yuhanna. “Bạn có thể cung cấp kho dữ liệu trên đám mây chỉ trong vài phút mà không cần yêu cầu bất kỳ chuyên môn kỹ thuật nào, cho phép các nhà phân tích kinh doanh và những người dùng không có nền tảng kỹ thuật khác truy cập, lưu trữ và xử lý một lượng lớn dữ liệu để cho ra những thông tin chi tiết sâu sắc”.

Mặc dù những người sử dụng CDW sớm hầu hết là các công ty nhỏ và các công ty kỹ thuật số, nhưng các tổ chức được thành lập lâu đời cũng đang có xu hướng chuyển kho dữ liệu tại chỗ của họ sang đám mây. Một số khách hàng chuyển kho dữ liệu tại chỗ hoặc cụm Hadoop sang CDW cho biết họ đã tiết kiệm được hàng triệu đô la mỗi năm.

Yuhanna viết: “Hầu hết các tổ chức đều tiết kiệm được ít nhất 20% so với kho dữ liệu tại chỗ, một số tổ chức tiết kiệm được 70% đến 80% khi triển khai giải pháp CDW”. Ngoài ra, nhiều giải pháp CDW cung cấp khả năng tách tính toán khỏi lưu trữ, cho phép các tổ chức chỉ phải chi trả cho mức tiêu thụ tài nguyên thực tế, giúp tiết kiệm tiền. ”

Khả năng hỗ trợ một loạt các loại dữ liệu đa dạng là một đặc điểm khiến cho CDW được ưu thích hơn so với kho dữ liệu truyền thống, theo Forrester. “Kho dữ liệu truyền thống không xử lý được dữ liệu IoT”, Yuhanna viết. “Tuy nhiên, CDW cung cấp khả năng lưu trữ, xử lý và truy cập một cách hiệu quả khối lượng lớn dữ liệu IoT từ các cảm biến và thiết bị.”

Google Cloud cũng đạt được tăng trưởng khách hàng ấn tượng với BigQuery ra mắt vào năm 2011. Nhà cung cấp cho biết, từ năm 2016 đến 2017, lượng dữ liệu được lưu trữ trong BigQuery tăng gấp đôi trong khi tổng mức sử dụng Google Cloud tăng gấp 4 lần. "Chúng tôi thấy rất nhiều động lực với việc khách hàng tiếp nhận mọi thứ chúng tôi đang làm", Sudhir Hasbe, giám đốc quản lý sản phẩm cho phân tích dữ liệu tại Google Cloud cho biết.

Google đã chia sẻ một số con số khổng lồ với Datanami về quy mô khách hàng của BigQuery. Môi trường BigQuery lớn nhất có 62PB và tỷ lệ tiêu thụ cao nhất cho một khách hàng là 4,5 triệu hàng mỗi giây. Truy vấn lớn nhất liên quan đến 5PB và BigQuery quét 23 nghìn tỷ hàng dữ liệu cho một truy vấn.

Công ty đang thu hút các công ty đã đầu tư rất nhiều thời gian và tiền bạc vào Hadoop. King, công ty đứng sau Candy Crush, điều hành một trong những cụm Hadoop lớn nhất ở châu Âu, theo Hasbe. Tuy nhiên, thách thức với Hadoop đã khiến công ty đầu tư vào BigQuery.

Hasbe nói: “Họ đã nhìn vào những thách thức mà họ phải đối mặt từ việc quản lý và mở rộng quy mô các cụm, đặc biệt là khi các trò chơi mới được ra mắt”. "Đó là một vấn đề lớn đối với họ."

King hiện đang đẩy 50 tỷ sự kiện mỗi ngày vào môi trường BigQuery, hay 18 nghìn tỷ hàng dữ liệu vào CDW, Hasbe nói. Các dữ liệu được phân tích bằng cách sử dụng phần mềm từ AtScale, ông nói.

Twitter là một “cửa hàng” Hadoop lớn đang hoạt động với BigQuery. Hasbe cho biết: “Họ có một trong những cụm Hadoop lớn nhất trên thế giới, hơn 300PB với hàng chục nghìn lõi."Họ đang sử dụng cơ sở hạ tầng cốt lõi cũng như BigQuery để phân tích cho các trường hợp sử dụng đó".

Không chỉ có các công ty kỹ thuật số chuyển sang BigQuery, Hasbe đã trích dẫn quyết định của Home Depot về việc chuyển một số khối lượng công việc phân tích từ Teradata sang BigQuery (Teradata cũng là một nhà cung cấp CDW lớn theo đánh giá của Forrester).

Ngân hàng HSBC có trụ sở ở Luân Đôn đang chuyển các phân tích rủi ro và hoạt động chống rửa tiền từ các cụm Hadoop tại chỗ sang BigQuery. “Bạn muốn thực hiện quy trình và phân tích quy mô lớn, nhưng làm việc đó tại chỗ với các cụm Hadoop có khả năng tính toán quy mô lớn là thực sự lãng phí vì hầu hết thời gian bạn sẽ không sử dụng cơ sở hạ tầng đó để phân tích. Vì vậy, họ đã chuyển sang nền tảng Google Cloud. ”

Nếu khoản tiết kiệm được duy trì, chúng ta sẽ thấy nhiều công ty truyền thống hơn di chuyển vào đám mây, đặc biệt nếu họ có thể chuyển những khoản tiết kiệm này thành phân tích dữ liệu lớn hơn.

"Điều quan trọng là, khi bạn lưu trữ tại chỗ ... bạn phải liên tục suy nghĩ làm thế nào để giảm kích thước của dữ liệu để không phải trả rất nhiều tiền cho cơ sở hạ tầng đó từ góc độ chi phí," ông nói. "Vì vậy, những thứ mà khách hàng chỉ có thể lưu trữ sáu tuần hoặc 12 tuần hay 3 tháng – giờ đây họ có thể lưu trữ nó mãi mãi."

Thùy Linh, Trương Khánh Hợp