Chú thích dữ liệu là gì và tại sao các startup ở APAC nên quan tâm?

Hoàng Linh| 03/08/2022 11:28
Theo dõi ICTVietnam trên

Các công ty khởi nghiệp (startup) trên toàn cầu thu thập được một lượng dữ liệu lớn trong quá trình hoạt động của họ và thông tin này có thể mang lại nhiều giá trị nếu được sử dụng đúng cách.

Các công ty mới nên kết hợp các công nghệ sáng tạo hơn như học máy, để hiểu rõ hơn về dữ liệu họ đang thu thập nhằm đáp ứng nhu cầu và nâng cao trải nghiệm của khách hàng. Theo xu hướng dữ liệu lớn mới nhất, chú thích dữ liệu (data annotation) là một kỹ thuật có thể giúp khai thác tiềm năng thực sự của thông tin thu thập được.

Chú thích dữ liệu là ghi nhãn dữ liệu để các ứng dụng trí tuệ nhân tạo (AI) có thể thêm nó vào bộ dữ liệu và học hỏi từ nó để tạo ra một đầu ra cụ thể. Ví dụ, nếu AI của công cụ tìm kiếm có đủ dữ liệu, chất lượng cao hơn và được phân loại tốt hơn thì nó có thể mang lại kết quả phù hợp hơn. Tuy nhiên, nó vẫn bị hạn chế phần nào bởi giá thành và lỗi do con người, gây ảnh hưởng đến chất lượng dữ liệu.

Chú thích là quá trình gắn nhãn hình ảnh, văn bản và video bằng các công cụ và phần mềm khác nhau. Sau đó, mô hình hoặc thuật toán học máy được giám sát sẽ sử dụng dữ liệu được gắn nhãn để mang lại trải nghiệm thân thiện với người dùng thông qua kết quả chính xác, nhận dạng giọng nói tốt hơn, hình ảnh có thể tìm kiếm, nhận diện khuôn mặt, tương tác liền mạch với trợ lý ảo, v.v.

Chú thích dữ liệu là gì và tại sao startup ở APAC nên quan tâm? - Ảnh 1.

Sự phát triển của thị trường công cụ chú thích dữ liệu

Châu Á - Thái Bình Dương (APAC) cũng giống như các khu vực còn lại của thế giới đã chứng kiến nhu cầu ngày càng tăng về dữ liệu do đại dịch COVID-19, vốn đã đẩy nhanh quá trình chuyển đổi số. Vào năm 2021, quy mô thị trường của các công cụ chú thích dữ liệu toàn cầu ở mức 629,5 triệu USD, với các chuyên gia dự báo nó có tốc độ tăng trưởng kép hàng năm (CAGR) là 26,6% từ năm 2022 - 2030. Tại khu vực APAC, con số này ở mức 183,5 triệu USD, kỳ vọng tốc độ CAGR là 28,2% từ năm 2022 - 2030.

Do nhu cầu của người tiêu dùng và sự gia tăng số hóa, các doanh nghiệp có nhu cầu đáng kể về việc tìm kiếm không gian để lưu trữ dữ liệu một cách an toàn và bảo mật. Để giải quyết những vấn đề này, các trung tâm dữ liệu (TTDL) và cơ sở đặt hạ tầng CNTT được mọc lên. TTDL là nơi một công ty có cơ sở hạ tầng CNTT để lưu trữ và truy cập thông tin kỹ thuật số trên các máy chủ. Ngược lại, cơ sở đặt hạ tầng CNTT là một TTDL nơi một công ty có thể thuê không gian cho các máy chủ của mình hoặc thuê thiết bị CNTT của bên thứ ba.

Thị trường TTDL Đông Nam Á có giá trị 8,71 tỷ USD vào năm ngoái và dự kiến sẽ đạt 12,34 tỷ USD vào năm 2027. Năng lực bất động sản TTDL đã tăng lên ở 4 quốc gia APAC: Úc (Sydney), Hồng Kông, Nhật Bản (Tokyo), và Singapore. Tuy nhiên, nhu cầu về TTDL đang tăng lên ở các thị trường mới nổi như Trung Quốc, Ấn Độ và Đông Nam Á (Indonesia, Thái Lan và Việt Nam).

Sức hấp dẫn của các thị trường mới nổi với vị trí đắc địa bắt nguồn từ việc chưa phát triển nhưng có tiềm năng mạnh, báo hiệu sẽ có tăng trưởng cao. Do đó, đã có sự đầu tư đáng kể vào khu vực và tăng cường ra mắt TTDL.

Một số yếu tố hạn chế tăng trưởng cho các startup ở APAC là việc áp dụng chậm các giải pháp dữ liệu lớn và không kết hợp chú thích dữ liệu. APAC cũng bị ảnh hưởng bởi không đủ tài năng công nghệ và tình trạng thiếu đất ở các quốc gia như Singapore, nơi đã trở thành điểm đến phổ biến cho các TTDL mới, bất chấp những thách thức này.

Tương lai của chú thích dữ liệu trong APAC

Các lĩnh vực chăm sóc sức khỏe và dịch vụ tài chính nổi bật với nhu cầu thu thập dữ liệu, phân tích mong muốn của khách hàng và báo cáo ngày càng tăng. Có tiềm năng cho các công cụ chú thích dữ liệu được sử dụng để nâng cao trải nghiệm của bệnh nhân và khách hàng, tương ứng, trong hai lĩnh vực này.

Phân khúc cơ sở hạ tầng CNTT có nhu cầu cao nhất và thị phần lớn nhất, với các startup đang tìm kiếm sự phát triển nhanh chóng, mở rộng, tốc độ Internet nhanh hơn và công nghệ sáng tạo. Sự gần gũi của APAC với các mạng cáp biển và nhu cầu có thêm TTDL sẽ tiếp tục thúc đẩy ngành này.

Vào năm 2021, thị trường TTDL APAC đã thu được các khoản đầu tư trị giá 63,15 tỷ USD và dự kiến sẽ thu được khoảng 94 tỷ USD tiền tài trợ vào năm 2027. Các nhà đầu tư cảm thấy có một thị trường mạnh mẽ để họ sử dụng tiền của mình.

Một trong những công ty đóng vai trò quan trọng trong việc thu thập dữ liệu và chú thích là TicTag, một công ty có trụ sở tại Singapore, đã huy động được 1,3 triệu USD vào tháng 6/2022, do M Venture Partners dẫn đầu. Nền tảng dữ liệu di động thân thiện với người dùng của nó cung cấp dữ liệu chính xác đến 99% cho AI của khách hàng. Các khoản đầu tư có thể sẽ được sử dụng để mở rộng và cải tiến công nghệ của nó. Các nhà đầu tư khác bao gồm Investible, East Ventures và Farquhar Venture Capital.

Với sự phát triển của 6G, sự ra đời của công nghệ 5G, sự gia tăng áp dụng đám mây và sự bùng nổ trong việc sử dụng Internet of Things (IoT), các công ty sẽ có thể thu thập nhiều dữ liệu hơn nữa. Xu hướng dữ liệu lớn cho thấy các startup trong các ngành khác nhau có thể phát triển mạnh bằng cách áp dụng các giải pháp quản lý dữ liệu tốt hơn. Các chính phủ ở APAC cũng nên cố gắng hết sức để xây dựng các luật tốt hơn để bảo vệ việc thu thập, đối chiếu và lưu trữ dữ liệu cá nhân của mọi người.

Cuối cùng, các startup ở APAC phải áp dụng các chính sách chú thích dữ liệu để tăng khả năng cạnh tranh và cung cấp giá trị cho người tiêu dùng, nếu không họ sẽ bị cộng đồng toàn cầu bỏ lại phía sau./.

Bài liên quan
Nổi bật Tạp chí Thông tin & Truyền thông
  • Bộ TT&TT đẩy mạnh ứng dụng AI hẹp
    Bộ trưởng Bộ TT&TT Nguyễn Mạnh Hùng nhấn mạnh trí tuệ nhân tạo (AI) đã vào giai đoạn ứng dụng rộng rãi. Trong quý 2 này, Bộ TT&TT sẽ đưa ra một số ứng dụng mẫu để các cơ quan nhà nước có thể áp dụng rộng rãi.
  • Giải pháp nào cho tổ chức, DN trước tấn công ransomware gia tăng?
    Ngoài việc lên kế hoạch cho các giải pháp phát hiện và phòng chống, các tổ chức và doanh nghiệp (DN) cần lên kế hoạch và giải pháp khôi phục lại dữ liệu trong tình huống tội phạm mạng tấn công và vượt qua tất cả các hàng rào bảo mật và phá hủy hoàn toàn hệ thống.
  • Bia Trúc Bạch kiệt tác chinh phục đỉnh cao
    Khám phá một kiệt tác, một di sản dẫn lối tinh hoa. Hoa Bia Saaz quý tộc vùng Zatec một kinh nghiệm bậc thầy tạo ra hương vị tinh túy bậc nhất đẳng cấp vượt thời gian, trải nghiệm đỉnh cao hoàn mỹ. Bia Trúc Bạch kiệt tác chinh phục đỉnh cao
  • Lan tỏa kinh nghiệm, mô hình CĐS cho các cơ quan báo chí
    Trong quý I-2024, Bộ Thông tin và Truyền thông (TT&TT) tiếp tục tăng cường thực hiện công tác đấu tranh, ngăn chặn thông tin xấu độc trên mạng xã hội (MXH) xuyên biên giới.
  • Tam Đảo - điểm đến cho một không gian âm nhạc riêng
    Từng được mệnh danh là “Hòn Ngọc Đông Dương” - Tam Đảo luôn khiến những kẻ lãng du nao lòng bởi không gian bảng lảng sương mù lẩn khuất giữa những kiến trúc biệt thự tráng lệ. Và còn gì quyến rũ hơn, khi giữa không gian ấy lại được đắm mình trong những giai điệu trữ tình, ngọt ngào sâu lắng.
Đừng bỏ lỡ
  • Alibaba sẽ xây dựng trung tâm dữ liệu tại Việt Nam
    Trong thời gian chờ xây dựng, tập đoàn công nghệ Trung Quốc thuê không gian máy chủ từ các công ty viễn thông của Việt Nam.
  • CMC hợp tác cùng NVIDIA đưa TP. HCM trở thành trung tâm AI của cả nước
    Mới đây, tại Tổ hợp không gian sáng tạo CMC TP.HCM CCS, Chủ tịch Tập đoàn CMC Nguyễn Trung Chính đã có cuộc gặp với lãnh đạo của Tập đoàn NVIDIA nhằm tăng cường hợp tác chiến lược toàn diện của hai doanh nghiệp (DN).
  • Khai thác dữ liệu phục vụ chỉ đạo, điều hành tại trung tâm IOC: Kinh nghiệm của Bình Phước
    Xác định dữ liệu là nguồn tài nguyên quý trong kỷ nguyên số - một trong những yếu tố quan trọng quyết định sự thành công của quá trình chuyển đổi số (CĐS), tỉnh Bình Phước đã sớm tập trung quan tâm tạo lập, khai thác, sử dụng, tăng cường chia sẻ, kết nối dữ liệu số cùng với việc thành lập IOC và những kết quả bước đầu thu được rất đáng ghi nhận.
  • Hiệu quả thiết thực từ mô hình tiếp công dân trực tuyến
    Với sự phát triển của công nghệ truyền thông, họp trực tuyến, xét xử trực tuyến, tiếp công dân trực tuyến cũng đã được một số địa phương áp dụng. Việc tiếp công dân trực tuyến phần nào mang lại hiệu quả thiết thực so với tiếp công dân trực tiếp.
  • Nhà báo phát thanh trước yêu cầu chuyển đổi số
    Nhà báo phát thanh trong kỷ nguyên số cần hội đủ những kỹ năng cơ bản.
  • Tuyên Quang: Tăng cường các giải pháp chuyển đổi số báo chí
    Các chi hội nhà báo tại tỉnh Tuyên Quang đã đẩy mạnh công tác chuyển đổi số (CĐS) báo chí với nhiều giải pháp từ ứng dụng công nghệ mới vào sản xuất tin bài; duy trì hiệu quả chuyên mục “Chuyển đổi số” cho tới phát triển tác phẩm báo chí số.
  • 5 cách để nâng cao bảo mật khi sử dụng trình duyệt Chrome
    Trình duyệt Chrome đang được rất nhiều người tin dùng bởi độ ổn định và khả năng bảo mật. Tuy nhiên, sự phổ biến này cũng khiến nó trở thành mục tiêu của tin tặc.
  • Mỹ phạt nhà mạng vì chia sẻ vị trí của người dùng
    Chính phủ Mỹ đã đưa ra mức phạt hàng triệu USD đối với các nhà mạng AT&T, Sprint, T-Mobile và Verizon sau một cuộc điều tra cho thấy các nhà mạng lớn của nước này đã chia sẻ bất hợp pháp dữ liệu cá nhân của thuê bao mà không có sự đồng ý của họ.
  • Các công cụ bảo mật đám mây dựa trên AI
    Ngày nay, AI tiên tiến đang được đưa vào sử dụng ở mọi loại hình doanh nghiệp (AI). Một loạt các nhà cung cấp bảo mật bên thứ ba đã phát hành các công cụ bảo mật đám mây dưới sự hỗ trợ của AI. Dường như đây là một trong những xu hướng nóng nhất trong ngành.
  • Những người làm báo từ rừng về phố
    Ngày 30/4/1975, trong những cánh Giải phóng quân từ khắp nẻo tiến về Sài Gòn, có cả một đội quân nhà báo xuất phát từ các chiến khu hoặc hành quân theo các binh chủng, đã kịp thời có mặt, chứng kiến giây phút trọng đại: Giải phóng hoàn toàn miền nam, thống nhất đất nước.
Chú thích dữ liệu là gì và tại sao các startup ở APAC nên quan tâm?
POWERED BY ONECMS - A PRODUCT OF NEKO