Làm thế nào để đánh giá chất lượng dữ liệu?

Hợp Trương| 03/10/2019 10:20
Theo dõi ICTVietnam trên

Dữ liệu hoàn hảo là điều không thể, nhưng có một số nguyên tắc cơ bản bạn vẫn phải đo lường chất lượng dữ liệu.

Với chất lượng dữ liệu, như với hầu hết mọi thứ khác trong cuộc sống, bạn sẽ biết được những gì bạn đưa vào. Nếu bạn có thể thu thập dữ liệu toàn diện, sạch sẽ, thì cơ sở dữ liệu của bạn sẽ bùng nổ với những hiểu biết đang chờ được khai thác.

Vì vậy bạn có thể nghĩ rằng, tất cả những gì bạn cần làm để biến dữ liệu của mình thành mỏ vàng là đảm bảo bạn chỉ thu thập các bộ dữ liệu thuần túy nhất, không có lỗi dù là nhỏ nhất. Và tất nhiên mọi thứ không đơn giản như vậy.

Các tổ chức thường có thể lưu trữ dữ liệu thành các cột và hàng theo thứ tự (hoặc cả hai), nhưng một khi bạn mở rộng mạng lưới của mình để bao gồm thông tin lượm lặt được từ web và các phương tiện truyền thông xã hội, sự đa dạng của các loại dữ liệu khiến việc lưu trữ, làm sạch và tìm bất kỳ phân tích nào trở nên khó khăn hơn. Những khung có cấu trúc sau đó bắt đầu biến mất.

Chụp dữ liệu chỉ có giá trị nếu dữ liệu đó thực sự tăng thêm giá trị. Mặc dù có thể nói chắc chắn rằng có nhiều dữ liệu được tạo ra và thu thập bởi các tổ chức - Forbes ước tính rằng 2,5 triệu triệu byte dữ liệu được tạo ra mỗi ngày - điều này thực sự có ảnh hưởng bất lợi đến chất lượng dữ liệu tổng thể được thu thập. Nguyên nhân rất đơn giản, có quá nhiều dữ liệu cần xử lý.

Tất nhiên, nếu bạn muốn dữ liệu có chất lượng cực cao, bạn sẽ phải tốn nhiều chi phí và thời gian để làm sạch nó. Nhưng nếu ví dụ, bạn đang phân tích tình cảm của khách hàng trên Twitter, và cần phản ứng nhanh, bạn sẽ phải hy sinh chất lượng và lựa chọn tốc độ, hoặc bạn sẽ có khả năng khiến khách hàng cảm thấy khó chịu.

Tất cả điều này có nghĩa là, trong thực tế, chất lượng dữ liệu hoàn hảo là một mục tiêu không thể đạt được. Dữ liệu bạn thu thập từ nhiều nguồn khác nhau sẽ không có cấu trúc. Tuy nhiên, điều đó không có nghĩa là bạn không nên coi trọng chất lượng dữ liệu mà bạn lưu giữ. Mặc dù nó không hoàn hảo, nhưng bạn muốn đảm bảo nó sạch nhất có thể, để nó có thể trở nên hữu ích.

Khi được trang bị các số liệu chính về đo lường chất lượng dữ liệu, doanh nghiệp sẽ biết vị trí của mình. Tiếp theo sẽ là việc triển khai chiến lược quản lý chất lượng dữ liệu, một quy trình cải thiện hơn nữa việc đo lường chất lượng dữ liệu, thông qua việc áp dụng kết hợp đúng người, đúng quy trình và công nghệ.

Làm thế nào để có thể đo lường chất lượng dữ liệu?

Có nhiều định nghĩa khác nhau, nhưng chất lượng dữ liệu thường được đo theo một bộ tiêu chí gọi là "kích thước chất lượng dữ liệu" để đánh giá sức khỏe của dữ liệu, chẳng hạn như tính đầy đủ hoặc tính duy nhất.

Trong một thế giới lý tưởng, tất cả các tiêu chí này sẽ có trọng số tương đương - nhưng tùy thuộc vào mục đích doanh nghiệp sử dụng dữ liệu của mình hoặc chức năng chính của nó, bạn có thể muốn ưu tiên các tiêu chí nhất định cao hơn các tiêu chí khác.

Mặc dù nhiều ngành công nghiệp sẽ đưa ra các số liệu riêng biệt để đánh giá chất lượng dữ liệu, DAMA International – một tổ chức phi lợi nhuận quản lý tài nguyên dữ liệu đã đưa ra sáu tiêu chí chính mà nó coi là tiêu chuẩn để đo lường bất kỳ cơ sở dữ liệu nào.

Tính đầy đủ

Tính đầy đủ được DAMA định nghĩa là có bao nhiêu bộ dữ liệu đã được hoàn thành, trái ngược với việc để dữ liệu trống. Chẳng hạn, một cuộc khảo sát sẽ hoàn thành 70% nếu nó được hoàn thành bởi 70% người tham gia khảo sát. Để đảm bảo tính đầy đủ, tất cả các bộ dữ liệu và các mục dữ liệu phải được ghi lại.

Tính độc đáo

Số liệu này đánh giá mức độ độc nhất của mục nhập dữ liệu và liệu nó có được sao chép ở bất kỳ nơi nào khác trong cơ sở dữ liệu của doanh nghiệp hay không. Tính độc đáo được đảm bảo khi phần dữ liệu chỉ được ghi lại một lần. Nếu không có chế độ xem duy nhất, bạn có thể phải khấu trừ nó.

Tính kịp thời

Mức độ cập nhật của dữ liệu của bạn như thế nào? Khía cạnh thiết yếu này của tiêu chí DAMA đánh giá mức độ hữu ích hoặc phù hợp của dữ liệu của doanh nghiệp dựa trên tuổi của nó. Tất nhiên, nếu một mục nhập được ghi ngày, chẳng hạn, sau 12 tháng, phạm vi cho những thay đổi đáng kể trong thời gian tạm thời có thể khiến dữ liệu trở nên vô dụng. Số km xe đã sử dụng, những dữ liệu thay đổi thường xuyên, là một ví dụ điển hình.

Tính hiệu lực

Nói một cách đơn giản, dữ liệu bạn đã ghi có phản ánh loại dữ liệu bạn đặt ra để ghi lại hay không? Vì vậy, nếu bạn yêu cầu ai đó nhập số điện thoại của họ vào một biểu mẫu và họ nhập 'sjdhsjdshsj', dữ liệu đó không hợp lệ, vì đó không phải là số điện thoại - dữ liệu không khớp với mô tả về loại dữ liệu nên được thu thập.

Tính chính xác

Độ chính xác xác định xem thông tin bạn giữ có chính xác hay không và không bị nhầm lẫn với tính hợp lệ, thước đo xem dữ liệu có thực sự là loại dữ liệu mà bạn muốn hay không.

Tính nhất quán

Đối với bất cứ ai cố gắng phân tích dữ liệu, tính nhất quán là một xem xét cơ bản. Về cơ bản, bạn cần đảm bảo bạn có thể so sánh dữ liệu giữa các tập dữ liệu và phương tiện (cho dù đó là trên giấy, trên tệp máy tính hoặc trong cơ sở dữ liệu) - tất cả đều được ghi theo cùng một cách, cho phép bạn so sánh dữ liệu và xử lý dữ liệu như một toàn diện.

Hãy nhớ rằng dữ liệu của bạn hiếm khi trở nên hoàn hảo và bạn phải cố gắng quản lý chất lượng dữ liệu của mình bằng cách sử dụng dữ liệu thực sự - dành quá nhiều thời gian để đảm bảo chất lượng và sẽ không còn thời gian để phân tích, bởi vì dữ liệu sẽ sớm bị lỗi thời.

Tuy nhiên, bạn nên thực hiện kiểm tra chất lượng dữ liệu một cách thường xuyên - đặc biệt là khi bạn có thể thường xuyên thu thập các bộ dữ liệu mới - để đảm bảo nó sạch sẽ và hữu ích. Không có dữ liệu tốt, bạn không thể dựa vào dữ liệu đó để đưa ra những hiểu biết kinh doanh hữu ích và đưa ra quyết định phù hợp.

Tại sao việc đo lường chất lượng dữ liệu lại quan trọng?

Chất lượng dữ liệu có thể là sự khác biệt giữa các doanh nghiệp đứng đầu thị trường với những doanh nghiệp bị tụt hậu. Điều này đặc biệt rõ ràng khi xem xét các thị trường cạnh tranh, vốn thường tràn ngập những doanh nghiệp vừa và nhỏ đang vật lộn để tranh giành các khoản đầu tư từ các tập đoàn khổng lồ. Với các đối thủ biết tận dụng dữ liệu và ngân sách để đạt đến mức đột phá, các tổ chức không tận dụng được các cơ hội từ dữ liệu mạnh có thể gặp rủi ro bị bỏ lại phía sau.

Từ góc độ kinh tế thuần túy, vì chất lượng dữ liệu được tối ưu hóa nên tài chính của công ty cũng được tối ưu hóa. Đó là bởi vì dữ liệu nghèo nàn cần tài nguyên để biến nó thành những dữ liệu có thể sử dụng được. Nghiên cứu được thực hiện bởi Gartner cho thấy các tổ chức tin rằng họ mất trung bình 15 triệu đô la mỗi năm do các tổn thất liên quan đến dữ liệu có chất lượng kém. Có một chiến lược dữ liệu tại chỗ sẽ đảm bảo duy trì chất lượng nhất định của dữ liệu và làm giảm các chi phí này.

Dữ liệu chính xác cũng cho phép doanh nghiệp hiểu rõ hơn nhu cầu của khách hàng. Điều này làm cho quá trình tiếp thị trở nên hiệu quả hơn, với các chiến dịch được nhắm mục tiêu đạt được tỷ lệ nhân khẩu học mong muốn. Các quy trình nội bộ nên được cải thiện, vì khi những người ra quyết định có thể tin tưởng hoàn toàn vào dữ liệu mà họ dựa vào, các quyết định tốt hơn có thể được đưa ra nhanh hơn.

Các công ty cũng cần phải nhận thức được các quy định tuân thủ. Trong nhiều ngành công nghiệp, quá trình lưu trữ dữ liệu có thể vi phạm luật bảo vệ dữ liệu. Dữ liệu phải được bảo vệ theo tiêu chuẩn và không được sử dụng cho các mục đích không mong muốn. Với sự hiểu biết tốt hơn về dữ liệu doanh nghiệp sở hữu, sẽ ít có cơ hội họ vô tình sử dụng dữ liệu theo những cách bị hạn chế.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Làm thế nào để đánh giá chất lượng dữ liệu?
POWERED BY ONECMS - A PRODUCT OF NEKO