EMC và bài toán phân tích dữ liệu lớn

04/11/2015 07:08
Theo dõi ICTVietnam trên

Greenplum của EMC đang xây dựng một nền tảng phân tích dữ liệu duy nhất có thể phân tích cả dữ liệu có cấu trúc và phi cấu trúc và cung cấp cho một lượng lớn người sử dụng những công cụ để nghiên cứu thông tin của doanh nghiệp.

EMC đã mua lại Greenplum vào năm ngoái và Greenplum đang có kế hoạch giới thiệu Unified Analytics Platform – UAP (nền tảng phân tích thống nhất) của mình vào quý đầu tiên của năm tiếp theo. UAP sẽ kết hợp cơ sở dữ liệu EMC Greenplum với EMC Greenplum HD (sử dụng khung phân tích mã nguồn mở Hadoop cho dữ liệu phi cấu trúc), và EMC Greenplum Chorus 2.0. Chorus là giao diện người sử dụng dùng để thiết lập các truy vấn và tạo ra hình ảnh, và phiên bản mới của nó cho phép người sử dụng giải quyết cả dữ liệu có cấu trúc và phi cấu trúc.

EMC công bố UAP Greenplum hôm thứ Tư tại một sự kiện ở Mountain View, California. Giá cả sẽ được tiết lộ vào năm tới.

Các tổ chức trong nhiều lĩnh vực có hàng núi dữ liệu từ các hoạt động của họ đang trở nên quá lớn để phân tích bằng các công cụ thông thường, theo nhà phân tích Julie Lockner của Enterprise Strategy Group. Khối lượng dữ liệu, sự phức tạp của truy vấn và nhu cầu cần có câu trả lời nhanh chóng thường tạo ra một thách thức.

Một trong những mục tiêu của Greenplum là tạo ra các công cụ phân tích dữ liệu có sẵn cho các nhà điều hành kinh doanh và các nhân viên khác, chứ không phải chỉ là chỉ một nhóm các dữ liệu dành riêng cho các nhà khoa học. Chorus cung cấp một giao diện ít phức tạp hơn để chuyển các câu hỏi của con người thành truy vấn đối với bộ dữ liệu, và nó bao gồm một môi trường mạng xã hội nơi mọi người trong một tổ chức có thể cộng tác làm việc với các dữ liệu.

UAP mang lại cho các doanh nghiệp hai lợi ích chính, ông Michael Maxey, Giám đốc tiếp thị sản phẩm tại Greenplum nói.

"Một là, phạm vi của dữ liệu mà họ có thể giải quyết, và họ còn có thể giải quyết tất cả các quy trình hiện hành và chuyên môn trong một tổ chức và mở rộng nó thành các bộ dữ liệu mới," ông nói.

Ngoài việc có thể truy cập vào dữ liệu phi cấu trúc thông qua Greenplum HD, Chorus 2.0 còn có khả năng tăng cường để nhanh chóng tạo ra một ảo "sandbox" để phát triển các quá trình phân tích mới, Maxey nói.

Khách hàng có thể triển khai UAP trên phần cứng điện toán tiêu chuẩn của họ hoặc đặt hàng đóng gói sẵn một cấu hình, Maxey nói. Các doanh nghiệp đã có cơ sở dữ liệu Greenplum hoặc Greenplum HD có thể tích hợp chúng thành nền tảng thống nhất.

Những hiểu biết về các dữ liệu có cấu trúc trong cơ sở dữ liệu truyền thống đòi hỏi phải có công nghệ khác nhau từ việc phân tích dữ liệu phi cấu trúc, chẳng hạn như các trang Web, hình ảnh và video. Nếu các nhà quản lý doanh nghiệp muốn có câu trả lời cho các câu hỏi yêu cầu cả hai loại thông tin, thường là họ cần phải có hai nền tảng phân tích, và các doanh nghiệp chỉ có đủ khả năng chi trả cho một nền tảng, Lockner cho biết. UAP của Greenplum có thể là một giải pháp kinh tế hơn cho phép một công ty có thể trả lời tất cả các loại truy vấn, bà nói.

Một bộ phận CNTT có thể tạo ra các báo cáo nội bộ duy trì vai trò của riêng mình trong công ty và có thể giúp giữ cho dữ liệu doanh nghiệp ở bên trong tường lửa, Lockner cho biết. UAP sẽ rất hữu ích khi bộ phận quản lý doanh nghiệp muốn một loại báo cáo mới.

Các công ty dữ liệu chẳng hạn như Tableau và Alpine Miner đã cung cấp nhiều giao diện phân tích dữ liệu dễ tiếp cận hơn so với Chorus 2.0, nhưng các khả năng tổng thể được cung cấp trong UAP là khá mới. Trong thực tế, bề rộng và tốc độ của các công cụ mới nổi này đang thay đổi việc phân tích dữ liệu và các nhà khoa học dữ liệu và những người khác cần phải tìm hiểu lại cách để nghiên cứu thông tin của một tổ chức."Không có nhiều người biết cách tận dụng những nền tảng này, hoặc cách xem xét các vấn đề của phân tích dữ liệu ngoài những thứ họ đã học được ở trường đại học," Lockner cho biết. Và trong tuần này Greenplum đã công bố Chương trình đào tạo Dữ liệu lớn và Phân tích, sẽ được giảng dạy tại hơn 700 trường cao đẳng và đại học.

Minh Phượng

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
EMC và bài toán phân tích dữ liệu lớn
POWERED BY ONECMS - A PRODUCT OF NEKO