Chú thích dữ liệu là gì và tại sao các startup ở APAC nên quan tâm?

Các công ty khởi nghiệp (startup) trên toàn cầu thu thập được một lượng dữ liệu lớn trong quá trình hoạt động của họ và thông tin này có thể mang lại nhiều giá trị nếu được sử dụng đúng cách.

Hoàng Linh
11:28 AM 03/08/2022
In bài viết này
Chú thích dữ liệu là gì và tại sao các startup ở APAC nên quan tâm?
Trình chú thích thu thập dữ liệu thô và tạo nhãn, danh mục và các yếu tố mô tả khác để giúp học máy, AI giải thích và hành động trên thông tin được cung cấp (Ảnh: digitalconnectmag)

Chia sẻ bài viết này

Các công ty mới nên kết hợp các công nghệ sáng tạo hơn như học máy, để hiểu rõ hơn về dữ liệu họ đang thu thập nhằm đáp ứng nhu cầu và nâng cao trải nghiệm của khách hàng. Theo xu hướng dữ liệu lớn mới nhất, chú thích dữ liệu (data annotation) là một kỹ thuật có thể giúp khai thác tiềm năng thực sự của thông tin thu thập được.

Chú thích dữ liệu là ghi nhãn dữ liệu để các ứng dụng trí tuệ nhân tạo (AI) có thể thêm nó vào bộ dữ liệu và học hỏi từ nó để tạo ra một đầu ra cụ thể. Ví dụ, nếu AI của công cụ tìm kiếm có đủ dữ liệu, chất lượng cao hơn và được phân loại tốt hơn thì nó có thể mang lại kết quả phù hợp hơn. Tuy nhiên, nó vẫn bị hạn chế phần nào bởi giá thành và lỗi do con người, gây ảnh hưởng đến chất lượng dữ liệu.

Chú thích là quá trình gắn nhãn hình ảnh, văn bản và video bằng các công cụ và phần mềm khác nhau. Sau đó, mô hình hoặc thuật toán học máy được giám sát sẽ sử dụng dữ liệu được gắn nhãn để mang lại trải nghiệm thân thiện với người dùng thông qua kết quả chính xác, nhận dạng giọng nói tốt hơn, hình ảnh có thể tìm kiếm, nhận diện khuôn mặt, tương tác liền mạch với trợ lý ảo, v.v.

Chú thích dữ liệu là gì và tại sao startup ở APAC nên quan tâm? - Ảnh 1.

Sự phát triển của thị trường công cụ chú thích dữ liệu

Châu Á - Thái Bình Dương (APAC) cũng giống như các khu vực còn lại của thế giới đã chứng kiến nhu cầu ngày càng tăng về dữ liệu do đại dịch COVID-19, vốn đã đẩy nhanh quá trình chuyển đổi số. Vào năm 2021, quy mô thị trường của các công cụ chú thích dữ liệu toàn cầu ở mức 629,5 triệu USD, với các chuyên gia dự báo nó có tốc độ tăng trưởng kép hàng năm (CAGR) là 26,6% từ năm 2022 - 2030. Tại khu vực APAC, con số này ở mức 183,5 triệu USD, kỳ vọng tốc độ CAGR là 28,2% từ năm 2022 - 2030.

Do nhu cầu của người tiêu dùng và sự gia tăng số hóa, các doanh nghiệp có nhu cầu đáng kể về việc tìm kiếm không gian để lưu trữ dữ liệu một cách an toàn và bảo mật. Để giải quyết những vấn đề này, các trung tâm dữ liệu (TTDL) và cơ sở đặt hạ tầng CNTT được mọc lên. TTDL là nơi một công ty có cơ sở hạ tầng CNTT để lưu trữ và truy cập thông tin kỹ thuật số trên các máy chủ. Ngược lại, cơ sở đặt hạ tầng CNTT là một TTDL nơi một công ty có thể thuê không gian cho các máy chủ của mình hoặc thuê thiết bị CNTT của bên thứ ba.

Thị trường TTDL Đông Nam Á có giá trị 8,71 tỷ USD vào năm ngoái và dự kiến sẽ đạt 12,34 tỷ USD vào năm 2027. Năng lực bất động sản TTDL đã tăng lên ở 4 quốc gia APAC: Úc (Sydney), Hồng Kông, Nhật Bản (Tokyo), và Singapore. Tuy nhiên, nhu cầu về TTDL đang tăng lên ở các thị trường mới nổi như Trung Quốc, Ấn Độ và Đông Nam Á (Indonesia, Thái Lan và Việt Nam).

Sức hấp dẫn của các thị trường mới nổi với vị trí đắc địa bắt nguồn từ việc chưa phát triển nhưng có tiềm năng mạnh, báo hiệu sẽ có tăng trưởng cao. Do đó, đã có sự đầu tư đáng kể vào khu vực và tăng cường ra mắt TTDL.

Một số yếu tố hạn chế tăng trưởng cho các startup ở APAC là việc áp dụng chậm các giải pháp dữ liệu lớn và không kết hợp chú thích dữ liệu. APAC cũng bị ảnh hưởng bởi không đủ tài năng công nghệ và tình trạng thiếu đất ở các quốc gia như Singapore, nơi đã trở thành điểm đến phổ biến cho các TTDL mới, bất chấp những thách thức này.

Tương lai của chú thích dữ liệu trong APAC

Các lĩnh vực chăm sóc sức khỏe và dịch vụ tài chính nổi bật với nhu cầu thu thập dữ liệu, phân tích mong muốn của khách hàng và báo cáo ngày càng tăng. Có tiềm năng cho các công cụ chú thích dữ liệu được sử dụng để nâng cao trải nghiệm của bệnh nhân và khách hàng, tương ứng, trong hai lĩnh vực này.

Phân khúc cơ sở hạ tầng CNTT có nhu cầu cao nhất và thị phần lớn nhất, với các startup đang tìm kiếm sự phát triển nhanh chóng, mở rộng, tốc độ Internet nhanh hơn và công nghệ sáng tạo. Sự gần gũi của APAC với các mạng cáp biển và nhu cầu có thêm TTDL sẽ tiếp tục thúc đẩy ngành này.

Vào năm 2021, thị trường TTDL APAC đã thu được các khoản đầu tư trị giá 63,15 tỷ USD và dự kiến sẽ thu được khoảng 94 tỷ USD tiền tài trợ vào năm 2027. Các nhà đầu tư cảm thấy có một thị trường mạnh mẽ để họ sử dụng tiền của mình.

Một trong những công ty đóng vai trò quan trọng trong việc thu thập dữ liệu và chú thích là TicTag, một công ty có trụ sở tại Singapore, đã huy động được 1,3 triệu USD vào tháng 6/2022, do M Venture Partners dẫn đầu. Nền tảng dữ liệu di động thân thiện với người dùng của nó cung cấp dữ liệu chính xác đến 99% cho AI của khách hàng. Các khoản đầu tư có thể sẽ được sử dụng để mở rộng và cải tiến công nghệ của nó. Các nhà đầu tư khác bao gồm Investible, East Ventures và Farquhar Venture Capital.

Với sự phát triển của 6G, sự ra đời của công nghệ 5G, sự gia tăng áp dụng đám mây và sự bùng nổ trong việc sử dụng Internet of Things (IoT), các công ty sẽ có thể thu thập nhiều dữ liệu hơn nữa. Xu hướng dữ liệu lớn cho thấy các startup trong các ngành khác nhau có thể phát triển mạnh bằng cách áp dụng các giải pháp quản lý dữ liệu tốt hơn. Các chính phủ ở APAC cũng nên cố gắng hết sức để xây dựng các luật tốt hơn để bảo vệ việc thu thập, đối chiếu và lưu trữ dữ liệu cá nhân của mọi người.

Cuối cùng, các startup ở APAC phải áp dụng các chính sách chú thích dữ liệu để tăng khả năng cạnh tranh và cung cấp giá trị cho người tiêu dùng, nếu không họ sẽ bị cộng đồng toàn cầu bỏ lại phía sau./.

Theo techcollective, digitalconnectmag