Thị giác máy tính trong truyền thông đa phương tiện

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực đã và đang phát triển mạnh mẽ trên thế giới. Khái niệm này có liên quan đến các ngành học khoa học máy tính hay trí tuệ nhân tạo (AI) và các lĩnh vực liên quan như vật lý, hình học và thống kê.

ThS. Chu Hải Hà
10:29 AM 15/03/2021
In bài viết này

Chia sẻ bài viết này

Các ứng dụng của thị giác máy tính vô cùng đa dạng bao gồm các ứng dụng trong truyền thông đa phương tiện, y khoa, giáo dục, quốc phòng an ninh, giao thông, khoa học không gian, sinh trắc học, khoa học nhận dạng,… Trong bài viết này chúng ta sẽ cùng nhau tìm hiểu những vấn đề cơ bản về thị giác máy tính.

1. Thị giác máy tính

Thị giác máy tính là một lĩnh vực khoa học liên ngành đề cập đến khả năng máy tính có thể đạt được hiểu biết mức cao về một đối tượng tồn tại trong thế giới thực từ hình ảnh hoặc video kỹ thuật số mà nó thu thập được trước đó thông qua quá trình học sâu (Deep Learning). Từ góc độ kỹ thuật, máy tính tìm cách hiểu và tự động hóa các nhiệm vụ mà hệ thống thị giác của con người có thể thực hiện.

Khi con người nhìn vào một hình ảnh, chúng ta sẽ thấy người, vật thể và các tòa nhà… Nó mang đến những ký ức về những trải nghiệm trong quá khứ, những tình huống tương tự mà chúng ta đã gặp phải. Nhưng đối với máy tính, hình ảnh này giống như tất cả các hình ảnh khác, đó là một mảng các pixel, các giá trị số đại diện cho các sắc độ của màu đỏ, xanh lá cây và xanh dương. Từ những năm 1950 của thế kỷ XX, các nhà khoa học đã luôn nỗ lực nghiên cứu và tạo ra những máy tính có thể hiểu được hình ảnh và video như con người. Đây chính là mục tiêu của ngành thị giác máy tính.

Công việc của thị giác máy tính là thu nhận các thông tin hữu ích về một đối tượng nào đó: con người, động vật, đồ vật,… thông qua các phương pháp thu thập, xử lý, phân tích hình ảnh hoặc video. Sau đó máy tính sẽ phỏng đoán các đối tượng, các thực thể có mặt trong một khung cảnh được yêu cầu, đặt tên chính xác cho từng đối tượng và đưa ra các quyết định xử lý phù hợp với mỗi loại đối tương.

Sự hiểu biết về hình ảnh của máy tính có thể được coi là sự tách rời thông tin biểu tượng từ dữ liệu hình ảnh bằng cách sử dụng các mô hình được xây dựng với sự hỗ trợ của hình học, vật lý, thống kê và lý thuyết học tập. Dữ liệu hình ảnh có thể có nhiều dạng, chẳng hạn như hình ảnh 2D, 3D, video thu được từ camera, máy quét hoặc thiết bị quét y tế.

Thị giác máy tính cho phép các máy tính nhúng như robot, ô tô tự lái, máy bay tự lái, các máy móc thiết bị có thể thực hiện một số hoạt động tự động, nó hoạt động một cách hiệu quả, an toàn hơn.

Tầm quan trọng của thị giác đã trở nên rõ ràng hơn ở lĩnh vực truyền thông đa phương tiện trong việc hỗ trợ người dùng tổ chức và truy cập vào bộ sưu tập hình ảnh, video của họ mà không cần gắn thẻ tag hoặc đánh dấu trong Facebook, Google hay trong các ứng dụng khác. Hiện nay số lượng hình ảnh của mỗi người dùng tăng lên rất nhanh và con người với thao tác thủ công sẽ khó có thể xử lý hết được và người dùng cần tới sự trợ giúp của các máy tính có sử dụng công nghệ thị giác máy tính.

2. Cách thức hoạt động của thị giác máy tính

2.1. Nguyên tắc chung

Thị giác máy tính dựa trên nền tảng công nghệ nhận dạng mẫu. Đầu tiên, các nhà phát triển phần mềm cần phải huấn luyện cho máy tính hiểu được các dữ liệu hình ảnh về thế giới thực bằng cách cung cấp cho nó hình ảnh về một đối tượng cụ thể, số lượng hình ảnh có thể là hàng ngàn, hàng triệu được tổ chức và gắn nhãn trước.

Ví dụ: person là nhãn chỉ hình ảnh con người, bottle là nhãn cho chai nước, laptop là nhãn của máy tính xách tay,…

Bước tiếp theo, các nhà phát triển phần mềm sẽ sử dụng một thuật toán xử lí ảnh để lập trình cho máy tính có thể dò tìm tất cả các mẫu theo nhiều yếu tố (đặc điểm) liên quan đến các nhãn có trong hệ thống.

Ví dụ, nếu chúng ta cung cấp cho máy tính một triệu hình ảnh về con ngườithị giác máy tính sẽ tuân theo tất cả các thuật toán cho phép chúng phân tích hình dạng con người, cấu trúc tổng thể, tỷ lệ và khoảng cách giữa các bộ phận, màu sắc da....

Khi kết thúc thuật toán, các nhà phát triển phần mềm sẽ cung cấp cho máy tính các hình ảnh, video không nhãn khác. Và nhiệm vụ của máy tính là nhận dạng và định danh (gán nhãn) cho những đối tượng có mặt trong ảnh và video. Ví dụ máy tính sẽ gán nhãn những đối tượng con người có mặt trong ảnh.

Ví dụ 1:

Thị giác máy tính trong truyền thông đa phương tiện - Ảnh 1.

Hình ảnh ban đầu

Thị giác máy tính trong truyền thông đa phương tiện - Ảnh 2.

Hình ảnh sau quá trinh phân tích bằng thị giác máy tính

Ví dụ 2:

Thị giác máy tính trong truyền thông đa phương tiện - Ảnh 3.

Hình ảnh ban đầu

Thị giác máy tính trong truyền thông đa phương tiện - Ảnh 4.

Hình ảnh sau quá trinh phân tích bằng thị giác máy tính

2.2. Một số công nghệ được sử dụng trong thị giác máy tính

Xử lí hình ảnh:

Xử lí ảnh là một trong những công nghệ quan trọng nhất trong lĩnh vực thị giác máy tính. Hai nhiệm vụ cơ bản của xử lí ảnh là nâng cao chất lượng thông tin hình ảnh  xử lí số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị giác vào điều khiển. Xử lý ảnh làm tiền đề cho việc nhận dạng mẫu trên các máy tính.

Nhận diện mẫu, trích xuất đặc điểm của đối tượng

Các thuật toán trích xuất feature (đặc điểm) có mục tiêu chính là đưa ra danh sách các đặc điểm (feature) của đối tượng từ hình ảnh, bao gồm các thuật toán phụ như phát hiện cạnh, phát hiện góc và phân tách đối tượng dựa vào màu sắc.

Độ chính xác của các thuật toán được sử dụng để trích xuất đặc điểm phụ thuộc vào thiết kế và tính linh hoạt của từng thuật toán. Công nghệ nhận diện mẫu giúp cho máy tính thu thập dữ liệu hình ảnh về các đối tượng và phục vụ cho quá trình huấn luyện cho máy tính.

Deep learning:

Deep learning (Học sâu) là một phần của trí tuệ nhân, cung cấp khả năng học hiệu quả hơn cho máy tính , giúp cải thiện các quy trình, bao gồm tính chính xác của các kết quả thị giác máy tính.

Sự khác biệt lớn nhất của hệ thống Deep learning là chúng không còn cần phải được lập trình để tìm kiếm các đặc điểm cụ thể. Thay vì tìm kiếm các đặc điểm cụ thể bằng thuật toán được lập trình cẩn thận, các mạng lưới thần kinh bên trong các hệ thống deep learning được đào tạo.

Ví dụ: nếu laptop trong hình ảnh bị phân loại sai thành vali thì không cần tinh chỉnh các tham số hoặc viết lại thuật toán. Thay vào đó, phần mềm tiếp tục đào tạo cho đến khi hệ thống làm ra kết quả đúng. Nhờ vậy mà các kết quả của thị giác máy tính sẽ ngày càng chính xác hơn.

3. Các ứng dụng của thị giác máy tính trong truyền thông đa phương tiện

Ứng dụng trong công nghệ dựng phim

 Các kĩ thuật của thị giác máy tính như quay phim theo dõi, tái tạo hình ảnh 3 chiều, các kĩ thuật nắm bắt chuyển động của cơ thể và khuôn mặt đã giúp cho các nhà sản xuất phim có thể sáng tạo ra những kĩ xảo hình ảnh chân thực và đẹp mắt hơn.

Trong quá trình sản xuất phim, có những phân cảnh diễn viên sẽ không thực hiện ở một khung cảnh trong thế giới thực mà nhà sản xuất sẽ sử dụng các hiệu ứng trực quan số để dựng cảnh trên máy tính. Các hiệu ứng này có thể thực hiện bằng thị giác máy tính.

Ví dụ như kĩ thuật blue screen matting (dùng tấm màn xanh dương), structure from motion (mô phỏng cấu trúc 3D từ chuyển động 2D), optical flow (kĩ thuật luồng quang học- Tự động phát hiện các đối tượng trong ảnh), feature tracking (theo dõi tính năng), view synthesis (tổng hợp khung cảnh).

Ứng dụng trong công nghệ thực tế tăng cường

Công nghệ thực tế tăng cường (Augmented Reality-AR) sẽ dựa trên không gian thật của môi trường xung quanh, sau đó thêm một vài yếu tố ảo hóa vào bên trong do  máy tính tạo ra như âm thanh, hình ảnh, video, hoặc dữ liệu GPS. Sự tăng cường thêm các yếu tố được thực hiện theo thời gian thực và trong bối cảnh thực.

Với sự hỗ trợ của thị giác máy tính, thông tin về thế giới thực xung quan người dùng trở nên có tính tương tác, sinh động hơn. Hiện nay công nghệ này đang được ứng dụng trong các chương trình truyền hình thể thao khi tăng cường thêm các đường biên trong sân thi đấu, hoặc làm xuất hiện các quảng cáo thương mại phủ lên trên quang cảnh của vùng thi đấu thể thao.

Kết luận

Thị giác máy tính là một chủ đề nghiên cứu khá mới mẻ ở Việt Nam. Việc nghiên cứu và phát triển các ứng dụng thị giác máy tính mở ra nhiều tiềm năng và khả năng ứng dụng thực tiễn mạnh mẽ. Bài viết đã đưa ra cái nhìn tổng quan nhất về công nghệ thị giác máy tính và các ứng dụng của thị giác máy tính trong ngành Truyền thông đa phương tiện. Và hy vọng rằng trong tương lai không xa các ứng dụng này sẽ được áp dụng rộng rãi ở Việt Nam để giúp cho lĩnh vực truyền thông, quảng cáo ngày càng phát triển hơn nữa.