Các bước triển khai hồ dữ liệu
Diễn đàn - Ngày đăng : 08:32, 15/08/2019
Mặc dù vẫn còn là một thuật ngữ đang phát triển, các hồ dữ liệu – data lake gần đây đã được công nhận nhiều hơn trong các nhóm công nghệ thông tin, khi dữ liệu ngày càng trở thành một nền tảng của kinh doanh hiện đại. Được coi là một giải pháp để giảm sự lộn xộn và các silo dữ liệu, các hồ dữ liệu xuất hiện từ ngành lưu trữ dữ liệu. Mục đích là để giải quyết sự thất vọng mà hệ thống công nghệ thông tin gặp phải khi cố gắng tạo ra một kho lưu trữ dữ liệu chiến lược có tổ chức, để đưa ra những quyết định kinh doanh quan trọng. Việc sử dụng này có thể bao gồm từ việc phân tích dữ liệu để hiểu rõ hơn nhu cầu của khách hàng, cho đến trí tuệ nhân tạo để giải quyết các thách thức trong thời gian thực.
Hồ dữ liệu, theo nhiều cách, là một sự phát triển của kho dữ liệu. Nhiều dự án kho dữ liệu đã thất bại: chúng quá tốn kém, mất quá nhiều thời gian và chỉ đạt được một tập hợp nhỏ các mục tiêu ban đầu. Với việc dữ liệu thay đổi và phát triển quá nhanh, nhu cầu nhận được giá trị từ dữ liệu một cách nhanh chóng đã trở nên cấp bách hơn bao giờ hết. Không ai có thể dành nhiều tháng hoặc nhiều năm để phân tích và mô hình hóa dữ liệu cho mục đích sử dụng kinh doanh. Vào thời điểm dữ liệu có thể sử dụng được trong kho dữ liệu, nhu cầu kinh doanh đã thay đổi.
Trong một nhánh tương tự như kho dữ liệu, các cơ sở dữ liệu (data mart) nổi lên với một mục đích sử dụng cụ thể hoặc được phân loại theo một chất lượng nhất định (ví dụ: dữ liệu của bộ phận tiếp thị). Data mart đã thành công hơn vì việc sử dụng dữ liệu được hiểu rõ hơn, và kết quả có thể được cung cấp nhanh hơn. Tuy nhiên, tính chất ngăn cách của các cơ sở dữ liệu đã khiến chúng trở nên ít hữu ích hơn đối với các doanh nghiệp có lượng dữ liệu khổng lồ, và cần sử dụng dữ liệu đó một cách đa chức năng và qua nhiều bên.
Vì lý do này, các hồ dữ liệu đã phát triển do khả năng đáp ứng nhu cầu kinh doanh ở mọi quy mô. Chúng được dự định để có thể tăng tốc mọi thứ, làm cho dữ liệu dễ sử dụng hơn cho các nhu cầu chưa được xác định trước đó. Sự xuất hiện của điện toán đám mây quy mô lớn, với sức mạnh tính toán khổng lồ và khả năng lưu trữ gần như vô hạn đã khiến phương pháp tiếp cận hồ dữ liệu này trở nên khả thi.
Vì các hồ dữ liệu vẫn là một khái niệm khá mới, thị trường vẫn chưa hoàn toàn thích nghi với chúng. Do đó, những người dùng đầu tiên sẽ thấy giá trị cao nhất từ các hồ dữ liệu tại thời điểm này, có lẽ là sử dụng chúng để trao quyền cho trí tuệ nhân tạo trong kinh doanh hàng ngày. Ngoài những người dùng đã tiếp cận và sử dụng các hồ dữ liệu, nhiều nhóm công nghệ thông tin đang đánh giá và xem xét chúng để tìm giải pháp phù hợp cho doanh nghiệp của họ. Những gì có thể được thực hiện để triển khai một hồ dữ liệu? Dưới đây là những gợi ý của chuyên gia về ba cách thực hành tốt nhất:
1. Đưa dữ liệu vào hồ dữ liệu với một chiến lược cụ thể
Lý do cốt lõi đằng sau việc giữ một hồ dữ liệu là sử dụng dữ liệu đó cho một mục đích. Mặc dù về mặt lý thuyết, một hồ dữ liệu sẽ phục vụ nhiều mục đích sử dụng. Nhưng tốt hơn hết là để bắt đầu, người dùng nên biết một vài luận điểm về cách dữ liệu sẽ được sử dụng. Xem xét cách làm thế nào người dùng sẽ đạt được giá trị từ một hồ dữ liệu ngoài việc lưu trữ. Như với bất kỳ sáng kiến công nghệ thông tin nào, trước hết, điều quan trọng là phải kết hợp triển khai dữ liệu hồ với một chiến lược cụ thể. Chiến lược này không chỉ phù hợp với các mục tiêu công nghệ thông tin mà còn cả các mục tiêu kinh doanh dài hạn.
Hãy tự hỏi liệu giữ một hồ dữ liệu sẽ hỗ trợ doanh nghiệp tận dụng dữ liệu của mình? Việc giữ dữ liệu để sử dụng sau sẽ rất tốn kém nếu thời gian chờ đợi dài. Nếu một doanh nghiệp không có ý định sử dụng dữ liệu của mình cho một mục đích cụ thể trong ngắn hạn, việc lưu trữ dữ liệu đó sẽ trở nên lãng phí.
2. Lưu trữ dữ liệu ở mức độ chi tiết nhất - và gắn thẻ nó
Lưu trữ dữ liệu ở mức chi tiết nhất cho phép dữ liệu được lắp ráp, tổng hợp và mặt khác, được thao tác cho vô số mục đích. Người dùng không nên tổng hợp hoặc tóm tắt dữ liệu trước khi lưu trữ trong hồ dữ liệu. Bởi vì giá trị của việc có một hồ dữ liệu sẽ không được nhận ra cho đến khi một doanh nghiệp có thể sử dụng dữ liệu trong đó. Người dùng nên đưa dữ liệu vào hồ bằng cách gắn thẻ và lập danh mục, để khi cần, đội ngũ công nghệ thông tin có thể lọc qua kho lưu trữ để lấy dữ liệu. Việc sử dụng gắn thẻ, đây là điều cần thiết trong việc lập báo cáo, có thể giúp kích hoạt các dự án phân tích. Ngoài ra, học máy và trí tuệ nhân tạo có thể hỗ trợ quá trình gắn thẻ bằng cách chọn lọc dữ liệu hiện có và tạo thẻ.
Ngoài ra, các công ty có thể sử dụng các phân tích dữ liệu, các dự án học máy và trí tuệ nhân tạo này để thúc đẩy khả năng cạnh tranh được cải thiện chung cho doanh nghiệp. Một công cụ có thể trao quyền cho người khác.
3. Có kế hoạch hủy dữ liệu
Thường thì các công ty tích lũy một lượng lớn dữ liệu mà không có kế hoạch nào để loại bỏ các dữ liệu không cần thiết. Đặc biệt, nếu có một nghĩa vụ tuân thủ để hủy thông tin sau một khoảng thời gian nhất định (như các công ty tuân thủ Quy định bảo vệ dữ liệu chung (GDPR) phải làm với dữ liệu của công dân EU), việc không có kế hoạch hủy dữ liệu có thể là rào cản trong việc thực hiện các nhiệm vụ này.
Ghép nối kế hoạch hủy với hồ dữ liệu của mình có thể giúp các doanh nghiệp truy xuất những dữ liệu gì cần phải hủy và khi nào hủy. Nó cũng có thể giải quyết các tình huống, trong đó các doanh nghiệp được yêu cầu theo dõi nơi tất cả dữ liệu khách hàng được lưu trữ: có một vị trí duy nhất giúp đơn giản hóa chi phí và tiết kiệm thời gian.
Chuẩn bị cho tương lai
Khi số lượng dữ liệu tăng, sẽ tiếp tục có những nhu cầu lưu trữ và sử dụng dữ liệu đó theo kiểu chiến lược. Các hồ dữ liệu đang nổi lên như một cách tuyệt vời để thúc đẩy việc trao quyền mở khóa giá trị dữ liệu cho doanh nghiệp. Khi xem xét một giải pháp hồ dữ liệu, trước tiên hãy xác định cách bạn nghĩ rằng tổ chức của mình sẽ sử dụng dữ liệu, sau đó bạn sẽ đặt nó ở đâu. Ví dụ, đám mây có sức hấp dẫn lớn đối với các hồ dữ liệu do chi phí lưu trữ thấp hơn. Nếu đám mây có ý nghĩa với các mục tiêu của doanh nghiệp bạn, hãy kiểm tra nhà cung cấp bên thứ ba có thể đáp ứng nhu cầu cơ sở hạ tầng độc đáo của doanh nghiệp. Nhà cung cấp dịch vụ đám mây hoặc DevOps của bạn sẽ xây dựng một quy trình vào hồ dữ liệu như thế nào để dữ liệu có thể được tải và sử dụng từ hồ theo những mục tiêu nhất định?
Vì chắc chắn sẽ có rất nhiều quy trình xử lý để đạt được giá trị đầy đủ từ việc sở hữu một hồ dữ liệu. Các doanh nghiệp nên xem xét các bước trong quy trình phân tích có thể được tự động hóa. Doanh nghiệp cũng cần nhân viên có kỹ năng xây dựng cơ sở hạ tầng để lưu trữ hồ dữ liệu, tải dữ liệu vào hồ dữ liệu và chuyển đổi dữ liệu để sử dụng. Thiết lập giao tiếp thường xuyên, cởi mở giữa các nhà lãnh đạo công nghệ thông tin và doanh nghiệp là bước đầu tiên để cho phép mọi chuyển đổi công nghệ thông tin, chẳng hạn như giải pháp hồ dữ liệu.