Quản lý dữ liệu và GenAI
Chuyển động ICT - Ngày đăng : 07:45, 05/02/2025
Quản lý dữ liệu và GenAI
Sự trỗi dậy của AI tạo sinh (GenAI) giống như một bước ngoặt đối với các doanh nghiệp muốn thúc đẩy tăng trưởng theo cấp số nhân với tiềm năng chuyển đổi của GenAI.
Tóm tắt:
- Báo cáo của MIT và khảo sát của McKinsey nhấn mạnh tiềm năng của AI tạo sinh (GenAI) trong việc nâng cao giá trị và chuyển đổi môi trường kinh doanh. Để triển khai hiệu quả, các doanh nghiệp cần chú trọng: chất lượng dữ liệu, chiến lược quản trị, và tích hợp dữ liệu chính xác.
- Các mô hình AI nhỏ hơn, phù hợp với từng ngành, có thể tối ưu hơn về chi phí so với các mô hình ngôn ngữ lớn (LLM).
- Để thành công, cần chuẩn bị cơ sở hạ tầng dữ liệu mạnh mẽ, quản lý dữ liệu nhất quán và bảo mật toàn diện, đồng thời áp dụng chiến lược dài hạn để tối ưu hóa khả năng của GenAI.
- Dữ liệu phi cấu trúc chiếm phần lớn dữ liệu tổ chức nhưng ít được chú trọng quản lý do khó khăn về: khối lượng, định dạng đa dạng, quyền sở hữu mơ hồ, và rủi ro bảo mật.
- GenAI có thể tối ưu hóa quản lý dữ liệu phi cấu trúc qua việc tạo siêu dữ liệu, tăng cường chất lượng dữ liệu, tuân thủ
chính sách, và ẩn danh dữ liệu, giúp giảm gánh nặng và nâng cao hiệu quả chiến lược.
Khi công nghệ này tồn tại trên dữ liệu, lòng tin của khách hàng và thông tin bí mật của họ đang bị đe dọa - và các doanh nghiệp (DN) không thể bỏ qua những cạm bẫy của nó. Tuy nhiên, chính chất lượng dữ liệu sẽ quyết định mức độ hiệu quả và giá trị của các sáng kiến GenAI đối với các tổ chức. Để những dữ liệu này được sử dụng hiệu quả, cần có sự kết hợp đúng đắn giữa các kỹ năng, ngân sách và nguồn lực để có được kết quả tốt nhất. Dữ liệu như vậy cũng phải được đặt trong môi trường, dù là đám mây riêng hay công cộng, có thể đáp ứng cả yêu cầu kinh doanh và nhu cầu kỹ thuật.
Dựa trên những cân nhắc này, các nhóm kinh doanh và công nghệ thông tin (CNTT) ngày càng cần phải hợp tác và thống nhất các ưu tiên kinh doanh của mình để sử dụng AI. Các tổ chức sẽ sử dụng AI như thế nào để nắm bắt nhiều cơ hội hơn, thu hút nhân viên và thúc đẩy quyền truy cập an toàn mà không ảnh hưởng đến tính toàn vẹn và tuân thủ dữ liệu? Đây là những mối quan tâm quan trọng mà các công ty phải giải quyết và truyền đạt ở mọi cấp độ của DN.
Công nghệ ẩn chứa nhiều tiềm năng
Theo Báo cáo của MIT “Chương trình nghị sự CDO 2024”, các giám đốc điều hành dữ liệu đều nhấn mạnh tiềm năng của trí tuệ nhân tạo tạo sinh (GenAI). Trong khi hầu hết các công ty vẫn đang trong giai đoạn đầu áp dụng GenAI, có một cảm giác rõ ràng rằng nó có thể tăng giá trị cho tổ chức (44%) và chuyển đổi môi trường kinh doanh (80%). Tuy nhiên, 46% nhấn mạnh đến nhu cầu về chất lượng dữ liệu mạnh mẽ và 93% nhấn mạnh tầm quan trọng của việc có một chiến lược dữ liệu được xác định rõ ràng.
Các nhà lãnh đạo về dữ liệu và AI đã khám phá các trường hợp sử dụng GenAI - họ đã khám phá ra những giá trị đáng kinh ngạc – đồng thời cũng gặp phải một số rào cản khó khăn. Một cuộc khảo sát gần đây của McKinsey cho thấy 70% các công ty hoạt động hiệu quả nhất đã phải vật lộn với việc tích hợp dữ liệu vào các mô hình AI, nêu ra các vấn đề như chất lượng dữ liệu, quản trị và dữ liệu đào tạo không đủ. Những thách thức này làm nổi bật một điều: để tận dụng hoàn toàn GenAI ở quy mô lớn, bạn cần nắm vững cách các khả năng dữ liệu của mình đang phát triển.
Mặc dù nghe có vẻ đơn giản, nhưng bước đầu tiên để quản lý dữ liệu chất lượng cao và chọn mô hình AI phù hợp xác định các trường hợp sử dụng GenAI cho doanh nghiệp. Tùy thuộc vào nhu cầu của doanh nghiệp, các mô hình ngôn ngữ lớn (LLM) có thể không cần thiết cho hoạt động của DN, vì chúng được đào tạo trên một lượng lớn văn bản và chủ yếu dành cho mục đích sử dụng chung. Do đó, chúng có thể không phải là mô hình AI hiệu quả nhất về mặt chi phí để áp dụng, vì chúng có thể cực kỳ tốn kém về mặt tính toán. Ngược lại, các mô hình nhỏ hơn, chẳng hạn như mô hình dành riêng cho DN hoặc lĩnh vực, có thể mang lại nhiều giá trị hơn với chi phí thấp hơn nhiều, đồng thời cung cấp thông tin chi tiết chính xác hơn, phù hợp với ngữ cảnh hơn so với LLM.
Tất nhiên, GenAI, với tất cả tiềm năng của mình, cũng đi kèm với những thách thức. Đầu tiên: chất lượng dữ liệu. Nếu cung cấp dữ liệu xấu cho hệ thống AI, DN sẽ nhận được kết quả xấu - chất lượng đầu ra chỉ tốt bằng chất lượng đầu vào. Đối với các doanh nghiệp đang cân nhắc tận dụng AI tạo sinh, điều này có nghĩa là dữ liệu lộn xộn, không đầy đủ hoặc không liên quan có thể dẫn đến các mô hình AI không mang lại giá trị.
Các phương pháp truyền thống thường không hiệu quả khi xử lý sự phức tạp của các tập dữ liệu có cấu trúc. Ví dụ, cố gắng xử lý các kết hợp thông tin tài chính có cấu trúc và dữ liệu phi cấu trúc như báo cáo tài chính và phân tích thị trường thường dẫn đến lỗi. Điều này là do các nhóm nội bộ gặp khó khăn trong việc mã hóa kiến thức của họ để sao chép trong các quy trình đường ống dữ liệu.
Một rào cản khác là tích hợp GenAI với các hệ thống dữ liệu hiện có. Nhiều tổ chức có nguồn gốc dữ liệu hoặc danh mục dữ liệu kém, điều này hạn chế khả năng hiểu biết của họ về cách dữ liệu được tạo ra và xử lý. Sự thiếu rõ ràng này có thể kìm hãm GenAI, vì việc đào tạo và sử dụng các mô hình AI phụ thuộc vào dữ liệu chính xác và toàn diện.
Các vấn đề về bảo mật và quản trị cũng đặt ra những thách thức đáng kể. Việc tích hợp GenAI với dữ liệu DN đòi hỏi các khuôn khổ quản trị mạnh mẽ để duy trì tính toàn vẹn và bảo mật của dữ liệu. Thêm vào đó, khả năng GenAI đưa ra các phản hồi không chính xác có nghĩa là sự giám sát của con người vẫn rất quan trọng. Việc xem xét và kiểm tra độ chính xác liên tục là điều cần thiết - nhưng chúng có thể tốn nhiều tài nguyên.
Tối ưu hóa GenAI với quản lý dữ liệu
Hơn bao giờ hết, các DN cần giảm thiểu những rủi ro này trong khi khám phá ra cách tiếp cận tốt nhất để quản lý dữ liệu. Đó là lý do tại sao nhiều DN đang áp dụng cách tiếp cận hai hướng đối với GenAI. Đầu tiên, chuẩn bị nền tảng dữ liệu - kiến trúc dữ liệu, khả năng của nền tảng dữ liệu và quản lý vòng đời dữ liệu (bao gồm từ tìm nguồn dữ liệu đến chuẩn bị thuật toán để sử dụng) - cho các trường hợp sử dụng kinh doanh của GenAI. Thứ hai, kết hợp GenAI vào các quy trình quản lý và quản trị dữ liệu của công ty.
Sự thành công của AI tạo sinh phụ thuộc rất nhiều vào chất lượng dữ liệu mà nó xử lý. Việc triển khai các kỹ thuật lập bản đồ ngữ nghĩa tiên tiến có thể là một bước ngoặt khi xử lý dữ liệu có cấu trúc. Các kỹ thuật này tự động diễn giải và chuẩn hóa dữ liệu từ các nguồn khác nhau, đảm bảo dữ liệu được sắp xếp theo cách nhất quán và có ý nghĩa.
Quá trình này rất quan trọng vì nó làm giảm đáng kể lỗi và sự không nhất quán, đây là những vấn đề thường gặp khi dữ liệu được lấy từ nhiều hệ thống. Dữ liệu sạch và được lập bản đồ tốt tạo ra nền tảng vững chắc cho đầu ra AI chính xác và đáng tin cậy hơn. Đổi lại, điều này nâng cao hiệu suất chung của các mô hình AI của bạn. Chất lượng dữ liệu tốt hơn dẫn đến những hiểu biết sâu sắc hơn và ra quyết định hiệu quả hơn.
Quá trình chuẩn bị dữ liệu nên diễn ra cùng với một chiến lược dài hạn được xây dựng xung quanh các trường hợp sử dụng GenAI, chẳng hạn như tạo nội dung, trợ lý số và tạo mã. Được gọi là kỹ thuật dữ liệu, điều này liên quan đến việc thiết lập một hồ dữ liệu hoặc hồ dữ liệu tích hợp (lakehouse), với dữ liệu của chúng được tích hợp với các mô hình GenAI. Ngoài việc mở rộng khả năng của kho lưu trữ dữ liệu GenAI, một hồ dữ liệu như vậy sẽ hỗ trợ các tổ chức trong việc tăng cường quản lý dữ liệu của họ để thiết lập tư thế phù hợp nhất cho GenAI.
Một trong những quyết định quan trọng nhất mà các nhà lãnh đạo doanh nghiệp có thể đưa ra là lựa chọn cơ sở hạ tầng phù hợp để hỗ trợ chiến lược quản lý dữ liệu của họ. Các yêu cầu tính toán, chẳng hạn như loại mô hình GenAI, số lượng người dùng và dung lượng lưu trữ dữ liệu, sẽ ảnh hưởng đến lựa chọn này. Một phương pháp tiếp cận toàn diện, từ đầu đến cuối cho phép các DN dễ dàng áp dụng và triển khai GenAI, từ điểm cuối đến trung tâm dữ liệu, bằng cách xây dựng một hoạt động dữ liệu mạnh mẽ.
Một nền tảng dữ liệu được xây dựng trên phần cứng được tối ưu hóa AI và một bộ phần mềm đầy đủ để khám phá, truy vấn và xử lý dữ liệu DN; từ việc loại bỏ các kho dữ liệu đến cung cấp cho các nhóm dữ liệu quyền truy cập tự phục vụ để tạo ra các sản phẩm dữ liệu chất lượng cao. Tuy nhiên, DN chỉ có thể đạt được những cải tiến đột phá với AI bằng cách mở khóa giá trị của dữ liệu. Đây là nơi các giải pháp dữ liệu được xây dựng có mục đích để chạy AI ở mọi quy mô, giải pháp này mở khóa giá trị của dữ liệu phi cấu trúc để các DN có thể truy cập, chuẩn bị, đào tạo và tinh chỉnh AI của mình một cách hiệu quả - tại chỗ, tại biên hoặc trên bất kỳ đám mây nào - thông qua một điểm truy cập dữ liệu duy nhất và ở hiệu suất cao nhất.
Một khía cạnh thiết yếu khác để GenAI hoạt động hiệu quả với dữ liệu có cấu trúc là nhúng quản trị và bảo mật AI tăng cường trực tiếp vào quy trình làm việc dữ liệu của DN. Điều này không chỉ là thiết lập các quy tắc mà còn đảm bảo chúng được tuân thủ tự động. Các khuôn khổ quản trị tự động có thể ghi lại, chứng nhận và theo dõi mọi tương tác với dữ liệu của bạn.
Mức độ giám sát như vậy duy trì tính toàn vẹn của dữ liệu và giúp đảm bảo tuân thủ các quy định. Ngoài ra, việc tích hợp các biện pháp bảo mật tự động, chẳng hạn như gắn thẻ Thông tin nhận dạng cá nhân (PII) và dữ liệu nhạy cảm khác và thiết lập kiểm soát truy cập, cung cấp một lớp bảo vệ khác. Các bước này giúp đảm bảo rằng các mô hình GenAI của bạn hoạt động trong một môi trường an toàn và tuân thủ, bảo vệ dữ liệu của bạn và giảm thiểu rủi ro vi phạm hoặc truy cập trái phép.
Những thách thức của dữ liệu phi cấu trúc
Trong khi các công ty áp dụng các cách tiếp cận khác nhau đối với quản trị và quản lý dữ liệu, thì có một yếu tố vẫn luôn không đổi – hầu hết đều dựa trên dữ liệu có cấu trúc. Dữ liệu có cấu trúc dễ dàng được dán nhãn và phân loại, do đó các công ty có thể dễ dàng hiểu được các đặc điểm chính của nó - và cách họ có thể và không thể sử dụng nó. Dữ liệu bán cấu trúc cũng đã nhận được một số sự chú ý trong vài năm qua, với nhiều công ty cải thiện cách xử lý các định dạng như tài liệu XML hoặc trả về từ API ở định dạng JSON (JavaScript Object Notation), thường được sử dụng trong tích hợp để trao đổi dữ liệu trong hoặc giữa các công ty.
Tuy nhiên, phần lớn dữ liệu của hầu hết các tổ chức là dữ liệu phi cấu trúc, phần lớn các khoản đầu tư quản lý dữ liệu nằm ở dữ liệu có cấu trúc. Các tổ chức tạo ra lượng dữ liệu phi cấu trúc thực sự khổng lồ, theo IDC Global DataSphere ước tính rằng chỉ riêng năm 2023 đã có 132 ZettaByte dữ liệu được tạo ra, trong đó 64% đến từ các doanh nghiệp; phần lớn dữ liệu này là “dữ liệu tối”, nghĩa là dữ liệu không được thu thập, gắn thẻ hoặc quản lý đúng cách, khiến việc truy cập và sử dụng trở nên khó khăn. Đối với hầu hết các công ty, điều này vẫn khiến khối lượng lớn dữ liệu phi cấu trúc bị hạ thấp mức ưu tiên và bị bỏ quên ở mức tệ nhất.
Quản lý và xử lý dữ liệu phi cấu trúc đơn giản là không nhận được sự chú ý tương đương với dữ liệu có cấu trúc, với nhiều tổ chức thậm chí còn phải vật lộn để xác định tất cả các vị trí mà dữ liệu phi cấu trúc có thể lưu trú - trên đó các ổ đĩa được chia sẻ, hệ thống đám mây, ứng dụng, v.v. Dữ liệu phi cấu trúc giống như một bãi rác kỹ thuật số, nơi thông tin bị vứt bỏ và lãng quên trong nhiều năm - Hiện nay, nhiều công ty không hiểu rõ những gì được chôn giấu bên trong và việc mở nó ra có thể gây ra hậu quả không lường trước được. Khi đã xác định được, dữ liệu phi cấu trúc đòi hỏi các kỹ thuật quản lý khác, phức tạp hơn và chuyên biệt hơn để các nhóm dữ liệu có thể trích xuất những hiểu biết và mô hình có ý nghĩa từ dữ liệu đó - các kỹ thuật như xử lý ngôn ngữ tự nhiên, khai thác văn bản và học máy.
Đối với hầu hết các tổ chức, dữ liệu phi cấu trúc vốn khó quản lý, điều hành và bảo mật. Sau đây là một số lý do:
1. Khối lượng và tính đa dạng: Khối lượng và tính đa dạng của các nguồn dữ liệu phi cấu trúc - từ email đến tài liệu, bài đăng trên mạng xã hội (MXH) đến tệp đa phương tiện - là vấn đề cốt lõi, khiến các nhóm khó theo dõi và thực thi các chính sách quản trị và bảo mật nhất quán trên toàn tổ chức.
2. Truy cập và chia sẻ không kiểm soát: Sau khi được tạo ra, dữ liệu phi cấu trúc sẽ nhanh chóng lan rộng trên nhiều hệ thống, thiết bị và dịch vụ đám mây khác nhau - khi mọi người sao chép, sửa đổi, thao tác và chia sẻ nội dung, nên dễ dàng mất dấu truy xuất nguồn gốc ban đầu của dữ liệu.
3. Kho dữ liệu và quyền sở hữu mơ hồ: Dữ liệu phi cấu trúc thường được tạo và quản lý bởi các phòng ban hoặc cá nhân khác nhau trong một tổ chức, dẫn đến tình trạng lưu trữ dữ liệu cục bộ hoặc là sự mơ hồ xung quanh quyền sở hữu và trách nhiệm giải trình dữ liệu. Trong khi dữ liệu có cấu trúc có nhiều khả năng đã xác định quyền sở hữu trong một tổ chức do các tác động về bảo mật hoặc chi phí, dữ liệu phi cấu trúc của công ty thường bị cô lập vì những lý do chính đáng (ví dụ: bình luận sắp tới cho một vụ mua lại) hoặc vì những lý do ít mong muốn hơn (ví dụ: ranh giới giữa các bộ phận).
4. Định dạng không nhất quán: Cuối cùng, định dạng của dữ liệu phi cấu trúc rất đa dạng. Trong khi dữ liệu có cấu trúc đã được thu gọn thành một tập hợp nhỏ các tiêu chuẩn chung, SQL là một tiêu chuẩn chính, thì các hệ thống nội dung phi cấu trúc có vô số định dạng. Các công cụ cần thiết để quản lý các định dạng này theo cách thống nhất sẽ đòi hỏi cam kết từ tổ chức để triển khai và sử dụng chúng.
Nhúng GenAI vào quy trình quản lý và quản trị dữ liệu
Việc áp dụng GenAI không còn là lựa chọn nữa mà là điều cần thiết đối với mọi tổ chức lớn muốn tồn tại và phát triển trong nền kinh tế toàn cầu cạnh tranh. Nghiên cứu gần đây từ Gartner cho thấy GenAI hiện là loại AI được triển khai phổ biến nhất trong các tổ chức. Để theo kịp các đối thủ trong kỷ nguyên AI tạo sinh, các DNp sẽ phải tận dụng dữ liệu phi cấu trúc của mình một cách hiệu quả và an toàn.
Việc sử dụng dữ liệu phi cấu trúc trong GenAI tạo ra các loại rủi ro về quản trị, quyền riêng tư và bảo mật mới mà các công cụ quản lý dữ liệu truyền thống này không được trang bị để xử lý - GenAI giúp một quy trình vốn đã khó khăn trở nên khó khăn hơn nữa. Để tận dụng GenAI một cách an toàn, các tổ chức cần có cách tiếp cận hoàn toàn khác để quản lý dữ liệu phi cấu trúc. Trong các ngành, các công ty đang tận dụng GenAI để thúc đẩy dịch vụ khách hàng và cá nhân hóa, tự động hóa các quy trình thủ công truyền thống và tạo ra giá trị theo những cách ngày càng tăng.
Nhưng nếu không điều chỉnh chiến lược, chính sách và năng lực dữ liệu của mình, các doanh nghiệp sẽ phải đối mặt với một sự ảo tưởng “được lựa chọn”. Họ có thể sa lầy vào nhiều công việc thủ công hơn để đảm bảo rằng tất cả dữ liệu đào tạo mới đều đạt chuẩn về chất lượng, tính toàn vẹn, bảo mật và sử dụng có trách nhiệm. Hoặc họ có thể tiến lên mà không có sự quản lý và có nguy cơ phải chịu hậu quả - một rủi ro có thể khiến ban quản lý cấp cao ngừng sử dụng GenAI với các giá trị tiềm năng của nó.
Nhưng đây là điểm bất ngờ - và điểm sáng. Cùng một công nghệ làm tăng gánh nặng cho quản trị dữ liệu cũng có thể làm giảm gánh nặng đó. Trên thực tế, GenAI có thể làm được nhiều hơn là làm giảm nỗi đau của tất cả công việc thủ công, tẻ nhạt đó. Điều đó có nghĩa là nó có thể tăng cường hoặc tự động hóa nhiều tác vụ quản lý dữ liệu quan trọng; ví dụ, gắn nhãn dữ liệu với các mối quan tâm về quyền riêng tư hoặc sở hữu trí tuệ để dữ liệu không bị sử dụng không đúng mục đích. Cuối cùng, khi mang lại hiệu quả cho quản lý dữ liệu, GenAI chứng minh đây không phải là thêm một cách nữa mà nó là một bước đột phá.
Với khả năng tạo nội dung từ dữ liệu phi cấu trúc khiến cho GenAI thành một công cụ để tăng hiệu quả và hiệu suất của việc quản lý dữ liệu; có 6 trường hợp sử dụng GenAI để quản lý dữ liệu:
- Tạo nhãn siêu dữ liệu. GenAI được ứng dụng trong quản lý và quản trị dữ liệu, bởi khả năng tạo mô tả - siêu dữ liệu - của dữ liệu phi cấu trúc. Các nhãn này chỉ định các chi tiết như nguồn dữ liệu, quyền sử dụng áp dụng và cách nội dung liên quan đến dữ liệu khác. Siêu dữ liệu giúp đảm bảo rằng các công ty đào tạo các thuật toán trên đúng dữ liệu trong đúng ngữ cảnh theo những cách có trách nhiệm, tuân thủ mọi quy định, ràng buộc hoặc chính sách áp dụng.
- Chú thích thông tin nguồn gốc. Trong bối cảnh CNTT của DN, việc thu thập và duy trì dữ liệu nguồn gốc liên hệ thống thường là một nỗ lực phức tạp và tốn thời gian. GenAI có thể đẩy nhanh quá trình thông qua các kỹ thuật phân tích cú pháp mã và bằng cách tạo bản nháp ban đầu của dữ liệu nguồn gốc. Thay vì tạo thông tin nguồn gốc theo cách thủ công, các nhóm quản trị dữ liệu sẽ xác thực đầu ra của GenAI, giúp sử dụng thời gian hiệu quả hơn.
- Tăng cường chất lượng dữ liệu. Khắc phục dữ liệu thường là một quá trình đòi hỏi nhiều công sức - quá trình này càng phức tạp hơn khi các hoạt động và chất lượng dữ liệu khác nhau trên toàn tổ chức (như thường xảy ra). Các mô hình GenAI có thể đẩy nhanh và thậm chí tự động hóa nhiều tác vụ chính: xóa các bản ghi trùng lặp; chuẩn hóa định dạng, loại và giá trị dữ liệu; lấp đầy khoảng trống trong các giá trị.
- Cải thiện việc làm sạch dữ liệu. Để đảm bảo rằng các thuật toán cung cấp kết quả đáng tin cậy và nhất quán, các công ty có thể sử dụng GenAI để tổng hợp dữ liệu đào tạo bị thiếu và loại bỏ “nhiễu” - dữ liệu vô nghĩa, bị hỏng hoặc không sử dụng được. Với một số đào tạo và kỹ thuật nhắc nhở (tạo đầu vào hoặc nhắc nhở, tạo ra đầu ra tối ưu từ mô hình GenAI), GenAI có thể tạo mã để sửa các bất thường về dữ liệu, giải phóng các nhóm sẽ thực hiện công việc này.
- Quản lý tuân thủ chính sách. Các công ty có thể thúc đẩy nhận thức và tuân thủ chính sách dữ liệu của mình thông qua cơ sở kiến thức do GenAI cung cấp, kiểm tra tuân thủ và khuyến nghị hành động. Công nghệ này cũng có thể hỗ trợ chatbot, cung cấp cách tương tác, đàm thoại để nhân viên khám phá chính sách - và là giải pháp thay thế cho hỗ trợ và đào tạo tùy ý.
- Ẩn danh dữ liệu. GenAI có thể chuyển đổi dữ liệu chứa thông tin nhạy cảm hoặc thông tin nhận dạng cá nhân. Điều này cho phép các công ty đảm bảo tính bảo mật và quyền riêng tư - tăng cường khả năng tuân thủ và rủi ro của họ - đồng thời bảo toàn tiện ích và tính toàn vẹn của dữ liệu.
Những trường hợp sử dụng này có thể có tác động đặc biệt lớn đến người quản lý dữ liệu và người giám hộ dữ liệu. Được giao nhiệm vụ đảm bảo chất lượng dữ liệu và thúc đẩy sự tin tưởng vào dữ liệu, các nhóm này dành phần lớn thời gian của mình cho các hoạt động thủ công, lặp đi lặp lại. Với GenAI tăng cường công việc của họ, người quản lý dữ liệu và người giám hộ có thể tập trung sự chú ý của mình - và năng lực - vào các nhiệm vụ phức tạp hơn, mang tính chiến lược và có giá trị gia tăng hơn.
Bằng cách nhúng GenAI vào quy trình quản lý và quản trị dữ liệu của mình, các công ty có thể tận dụng cơ hội mà không phải chịu gánh nặng. Và với các thuật toán thực hiện công việc, các chuyên gia dữ liệu có thể dành nhiều thời gian hơn cho công việc tạo ra giá trị gia tăng - tạo ra nhiều cơ hội hơn nữa để phát triển DN. Khi các DN thu thập và sử dụng nhiều dữ liệu phi cấu trúc hơn, mối quan tâm về quyền riêng tư dữ liệu và việc sử dụng AI một cách có đạo đức đang gia tăng.
Trong khi đó, việc lưu trữ, quản lý và xử lý khối lượng lớn dữ liệu phi cấu trúc đặt ra các vấn đề về quy mô và tính phức tạp, khiến những người ra quyết định của DN phải xem xét lại các chiến lược quản lý tài sản dữ liệu của họ.
Trong thời đại mà dữ liệu được ca ngợi là “dầu mỏ mới”, việc quản lý dữ liệu hiệu quả trở nên quan trọng hơn bao giờ hết. Hành trình này có vẻ đầy thách thức, đặc biệt là khi xét đến các thông lệ và hệ thống cố hữu trong nhiều tổ chức. Nhưng với lời hứa về hiệu quả, khả năng mở rộng, tính linh hoạt và khả năng diễn giải được tăng lên, phần thưởng sẽ lớn hơn nhiều so với ủi ro. Kỷ nguyên của GenAI đã đến và đã đến lúc chúng ta dấn thân vào hành trình chuyển đổi thú vị này.
Tài liệu tham khảo:
1. https://www.bcg.com/publications/2024/the-solution-to-
data-managements-genai-problem
2. https://illumex.ai/blog/data-management-with-genai-how-
to-handle-structured-data/
3. https://www.cio.com/article/3551587/the-success-of-genai-
models-lies-in-your-data-management-strategy.html
4. https://www.cio.com/article/1257351/generative-ai-is-
pushing-unstructured-data-to-center-stage.html
5. https://www.linkedin.com/pulse/data-strategy-governance-
era-genai-jacques-du-preez-njgif/
(Bài đăng ấn phẩm in Tạp chí TT&TT số 12 tháng 12/2024)