Thị giác máy tính: Tổng quan về công nghệ AI tiên tiến nhất
Diễn đàn - Ngày đăng : 15:53, 10/06/2019
Trong số các ngành khác nhau của AI, computer vision (thị giác máy tính) đang có được những động lực thúc đẩy đáng kể. Hãy cùng tìm hiểu kỹ hơn trong bài viết dưới đây.
Công nghiệp 4.0
Tiến bộ trong trí tuệ nhân tạo và công nghệ robot có xu hướng giảm khoảng cách giữa khả năng của con người và máy móc, mặc dù vẫn còn một chặng đường dài để có thể có được một cỗ máy giống con người. Công nghiệp 4.0 ngày càng phát triển các phương tiện tự lái hoặc máy bay không người lái, đồng thời chứng kiến sự gia tăng của các thiết bị tiên tiến như máy ảnh và cảm biến hình ảnh.
Các công nghệ tiên tiến đem đến một cách thức thực hiện mới cho các nhiệm vụ ngày càng phức tạp hơn. Điều đó cho phép robot hoặc các quy trình tự động thay thế con người, giải phóng họ khỏi những nhiệm vụ tẻ nhạt, cho họ không gian và thời gian theo đuổi những công việc có giá trị.
Dữ liệu là chìa khóa
Nhìn qua lăng kính công nghệ, dữ liệu là nền tảng của các dự án chuyển đổi kỹ thuật số mà các tổ chức thành công đang tiến hành hiện nay. Dữ liệu có thể được coi là liên kết tốt nhất giữa con người và máy móc. Cho dù là những con số, văn bản hay dữ liệu phức tạp hơn như âm thanh, video hoặc hình ảnh, thông tin được số hóa cho phép con người giao tiếp với máy móc - và ngược lại - cũng cho phép cỗ máy hiểu được thế giới xung quanh.
Computer vision là gì
Đúng như tên thuật ngữ, thị giác máy tính mô tả một tập hợp các công nghệ cho phép máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào thu nhận, phân tích và xử lý hình ảnh. Các nguồn hình ảnh khác nhau có thể vô cùng đa dạng. Chúng có thể là hình ảnh, video, thiết bị 3D, dữ liệu từ máy quét y tế hoặc công nghiệp, và nhiều hơn nữa. Mục đích là để cung cấp cho các thiết bị này - bao gồm máy bay không người lái, máy móc vận chuyển, hoặc thậm chí chỉ là một máy tính đơn giản – khả năng “nhìn” và phản ứng tùy thuộc vào thông tin chúng nhận được. Trong sự phức tạp và các trường hợp sử dụng của mình, thị giác máy tính thường được so sánh với nhận dạng giọng nói.
Bạn có thể không quen thuộc với khái niệm này và các công nghệ đằng sau thị giác máy tính. Tuy nhiên, một trong số đó, OCR (Nhận dạng ký tự quang học), khá phổ biến, vì nó đã được sử dụng để nhận dạng văn bản trong ảnh hoặc tài liệu được quét trong nhiều năm. Nhận dạng chữ viết tay đã được sử dụng trong nhiều thập kỷ bởi các hệ thống ngân hàng để đọc séc. Nhận dạng đối tượng từ lâu đã được sử dụng trong nhiều ngành công nghiệp để tự động hóa kiểm soát chất lượng hoặc phân loại sản phẩm trong các nhà máy v.v...
Thị giác máy tính gắn liền với AI theo nghĩa thiết bị không chỉ cần nhìn mà ngay sau giai đoạn nhận biết này, nó phải phân tích và giải thích những gì mình thấy, từ đó đưa ra hành động phù hợp và tương tác với môi trường.
Thị giác máy tính so với xử lý hình ảnh
Lưu ý rằng không nên có sự nhầm lẫn giữa thị giác máy tính và xử lý hình ảnh. Xử lý hình ảnh là phân tích hình ảnh kỹ thuật số hoặc thực hiện các thuật toán, bao gồm việc phân loại, trích xuất, chỉnh sửa hoặc lọc... Xử lý hình ảnh liên quan đến các công nghệ và phương pháp được sử dụng để gia tăng hình ảnh về khía cạnh thông tin trong khi thị giác máy tính hướng đến các hành động thực tế.
Mặc dù rõ ràng là ứng dụng đầu tiên của thị giác máy tính là quản lý hình ảnh nhưng nó cũng có thể được sử dụng để thực hiện các hoạt động khác nhau bao gồm nhận dạng đối tượng hoặc phát hiện sự kiện.
Những gì các nhà phân tích đang nói
- Forrester: Nhờ bộ dữ liệu đào tạo khổng lồ, mạng lưới thần kinh sâu (deep neural networks) và các đơn vị xử lý đồ họa (GPU), giờ đây máy tính có thể xác định chính xác các đối tượng và thuộc tính trong hình ảnh cũng như video. Giám đốc CNTT và các nhà lãnh đạo công nghệ kinh doanh nên biết được cách họ có thể thúc đẩy thị giác máy tính cho bảo mật, giám sát phương tiện truyền thông xã hội, quản lý tài sản, sản xuất và vô số trường hợp sử dụng khác liên quan đến việc phân loại dữ liệu hình ảnh không có cấu trúc.
- Deloitte: Nhiều công ty trong lĩnh vực công nghệ vẫn chưa chú ý đến việc công nghệ nhận thức đang thay đổi lĩnh vực của họ như thế nào hoặc cách họ - hoặc đối thủ của họ - có thể triển khai các công nghệ này trong chiến lược hoặc hoạt động của mình... Thị giác máy tính là khả năng của máy tính trong việc xác định các đối tượng, cảnh và hoạt động trong môi trường thị giác không bị giới hạn.
- Arcognizance.com: Trí thông minh nhân tạo có mối quan hệ với trí thông minh của con người với các đặc tính có liên quan như hiểu ngôn ngữ, phân tích, học tập, giải quyết vấn đề,… và nó nằm ở cốt lõi của các công nghệ phần mềm thế hệ tiếp theo trên thị trường. Các công ty công nghệ hàng đầu đã triển khai AI như một phần thiết yếu trong công nghệ của mình. Thị trường thị giác máy tính dự kiến sẽ tăng trưởng với tỷ lệ tăng trưởng hàng năm kép cao nhất do việc triển khai thị giác máy tính trong các ứng dụng tự động và bán tự động trong các ngành công nghiệp khác nhau như sản xuất và ô tô đang ngày càng gia tăng.
- IDC: Các công nghệ phần mềm thị giác máy tính đang thay đổi cách các ngành công nghiệp truyền thống, như ô tô, bán lẻ, bảo hiểm và chăm sóc sức khỏe hoạt động. Bằng cách thêm các thành phần thị giác máy tính vào sản phẩm hoặc dịch vụ, các nhà cung cấp trong những ngành công nghiệp này có thể gia tăng hiệu quả đồng thời cắt giảm chi phí.
- McKinsey: Trí thông minh nhân tạo đã sẵn sàng tạo ra làn sóng đột phá kỹ thuật số tiếp theo và các công ty nên chuẩn bị cho điều này ngay bây giờ. Chúng ta đã nhận thấy lợi ích thực tế từ một vài công ty áp dụng sớm và điều này đặt những người khác vào tính thế cấp bách hơn bao giờ hết trong việc tăng tốc các dự án chuyển đổi kỹ thuật số của họ. Năm trong số những hệ thống công nghệ AI đột phá nhất: robot và phương tiện tự lái, thị giác máy tính, ngôn ngữ, trợ lý và học máy, bao gồm học tập sâu và củng cố nhiều tiến bộ gần đây trong các công nghệ AI khác.
Ví dụ thực tế minh họa
Robot và máy móc tự động như xe tự lái theo truyền thống là lĩnh vực yêu thích cho thị giác máy tính. Tuy nhiên, thực tế là các công nghệ thị giác máy tính đang ngày càng trở nên phổ biến trong ngày càng nhiều lĩnh vực như:
Lĩnh vực y tế
Những tiến bộ lớn liên tục xuất hiện trong các lĩnh vực nhận dạng mẫu và xử lý hình ảnh. Đồng thời, không có gì đáng ngạc nhiên khi cộng đồng y tế và các chuyên gia trong lĩnh vực chăm sóc sức khỏe cho rằng hình ảnh y khoa (kỹ thuật tạo hình ảnh trực quan về bên trong của cơ thể để phân tích lâm sàng và can thiệp y tế, cũng như biểu thị trực quan chức năng của một số cơ quan hoặc mô sinh lý học) đã trở thành một phần thiết yếu trong cách thức làm việc của họ, hướng đến các công cụ chẩn đoán tốt hơn và tăng đáng kể khả năng đưa ra các hành động hiệu quả hơn.
Phân tích hình ảnh y khoa là một trợ giúp lớn cho phân tích dự đoán và trị liệu. Ví dụ, thị giác máy tính được áp dụng cho hình ảnh nội soi có thể làm tăng mức độ hợp lệ và đáng tin cậy của dữ liệu để giảm tỷ lệ tử vong liên quan đến ung thư đại trực tràng.
Trong một ví dụ khác, công nghệ thị giác máy tính cũng cung cấp hỗ trợ kỹ thuật cho phẫu thuật. Mô hình hình ảnh 3D của hộp sọ, như là một phần của điều trị khối u não, cung cấp tiềm năng to lớn trong việc chuẩn bị phẫu thuật thần kinh tiên tiến. Ngoài ra, khi mà học sâu ngày càng được sử dụng trong các công nghệ AI, việc tận dụng nó để phân loại các nốt phổi đã đạt được tiến bộ to lớn để chẩn đoán sớm ung thư phổi.
Bán lẻ
Thị giác máy tính đang được sử dụng trong các cửa hàng ngày càng nhiều, đặc biệt là giúp cải thiện trải nghiệm của khách hàng. Pinterest Lens là một công cụ tìm kiếm sử dụng thị giác máy tính để phát hiện các đối tượng giống như cách Shazam phát hiện âm nhạc. Bằng cách sử dụng ứng dụng điện thoại thông minh trong các cửa hàng, bạn có thể hình dung một sản phẩm trông như thế nào và nhận được các sản phẩm khác liên quan đến nó.
Nhận dạng khuôn mặt là một ứng dụng nổi tiếng về thị giác máy tính có thể được sử dụng trong trung tâm mua sắm hoặc trong cửa hàng. Lolli & Pops, một cửa hàng kẹo có trụ sở tại Mỹ, đang sử dụng nhận dạng khuôn mặt để tích điểm cho khách hàng trung thành. "Hãy tưởng tượng: Bạn bước vào cửa hàng yêu thích của mình và nhân viên bán hàng chào đón bạn bằng tên và bất cứ lúc nào bạn cần, họ chia sẻ với bạn những sản phẩm mới nhất của mình mà bạn có thể sẽ quan tâm nhất." Sự đổi mới công nghệ có thể đưa ra các giới thiệu được cá nhân hóa cụ thể cho từng khách hàng.
Dường như không có giới hạn khi nói về các trường hợp sử dụng của thị giác máy tính trong lĩnh vực bán lẻ, chúng cũng có thể bao gồm phân tích các kệ hoặc tầng trong cửa hàng, thậm chí cả phân tích tâm trạng của khách hàng, cụ thể phát hiện cảm xúc dựa trên các thuật toán thông qua hình ảnh trong video và phân tích các biểu cảm nhỏ nhất trên gương mặt, xử lý chúng và cuối cùng, diễn giải cảm xúc chung.
Chấm dứt việc phải xếp hàng để thanh toán có thể là mục tiêu cuối cùng của cải tiến công nghệ trong các cửa hàng. Thị giác máy tính kết hợp với AI cuối cùng cũng có thể xóa sổ những hàng đợi thanh toán dài ác mộng.
Amazon đã phát triển một mô hình mới, Amazon Go, thúc đẩy các công nghệ bao gồm thị giác máy tính, IoT và AI để phát hiện, theo dõi và phân tích hành vi cũng như hành động của khách hàng trong cửa hàng để xử lý tự động quá trình thanh toán và gửi cho họ hóa đơn điện tử.
Ngân hàng
Khi nói đến việc liên kết các công nghệ AI với ngân hàng, chúng ta chủ yếu nghĩ đến việc phát hiện gian lận. Mặc dù đó là một lĩnh vực tập trung đặc biệt cho công nghệ tiên tiến trong lĩnh vực này, thị giác máy tính có thể cải tiến nhiều thứ hơn nữa. Các ứng dụng nhận dạng hình ảnh sử dụng học máy để phân loại và trích xuất dữ liệu phục vụ cho việc giám sát quá trình xác thực các tài liệu như thẻ căn cước hoặc giấy phép lái xe có thể được sử dụng để cải thiện trải nghiệm của khách hàng từ xa và tăng cường bảo mật.
Phát hiện cháy dựa trên máy bay không người lái
Việc sử dụng rộng rãi và đa dạng thị giác máy tính cũng áp dụng cho các lĩnh vực an ninh. Máy bay không người lái, hoặc UAV, có thể tận dụng các hệ thống thị giác máy tính để tăng cường khả năng phát hiện của con người trong việc phát hiện cháy rừng, sử dụng hình ảnh hồng ngoại (IR) như một phần của các giao thức giám sát cháy rừng. Các thuật toán nâng cao phân tích các đặc điểm hình ảnh video như chuyển động hoặc độ sáng để phát hiện lửa. Hệ thống đang thực hiện các trích xuất được nhắm mục tiêu để phát hiện dễ dàng các mẫu và tính toán cách để thấy sự khác biệt giữa các đám cháy và chuyển động thực tế có thể bị hiểu nhầm là hỏa hoạn.
Máy bay không người lái cũng có thể cải thiện an ninh và hiệu quả của hoạt động cứu hỏa bằng cách giám sát hoặc nghiên cứu các khu vực nguy hiểm. Nhân viên cứu hỏa có thể chạy các phân tích dựa trên thuật toán tiên tiến để kiểm tra khói và lửa, từ đó đánh giá rủi ro và đưa ra dự đoán về sự lan truyền lửa.
Hệ sinh thái công nghệ tiên tiến
Theo nghiên cứu của ResearchAndMmarket.com, "AI trong thị trường thị giác máy tính dự kiến sẽ được định giá 3,62 tỷ USD vào năm 2018 và dự kiến sẽ đạt 25,32 tỷ USD vào năm 2023".
Số lượng công nghệ là một phần của thị giác máy tính rất rộng và chúng bao gồm, ví dụ, nhận dạng hình ảnh, công nghệ được sử dụng để nhận dạng đối tượng, con người và cả hành động ngay trước khi học máy hoặc điện toán đám mây hay điện toán cạnh tận dụng các tài nguyên về CPU và khả năng lưu trữ trong nhiều ứng dụng thực tế như như máy bay không người lái cần xử lý thông tin tại chính nơi chúng được tạo ra. Trong số những công nghệ tiên tiến đó, học máy và học sâu cho phép phát triển thị giác máy tính.
Học máy
Học máy là một lớp thuật toán nhằm cung cấp cho các ứng dụng mức độ chính xác cao hơn. Điểm thú vị là những thuật toán này không nhất thiết phải có một kế hoạch rõ ràng để đạt được điều này. Dựa trên luồng dữ liệu đầu vào, số liệu thống kê định kỳ và phân tích nâng cao, chúng có thể liên tục cải thiện giá trị của kết quả.
Học máy dựa vào tiềm năng cao của các bộ dữ liệu. Nói một cách đơn giản, một bộ dữ liệu về cơ bản là một tập hợp các dữ liệu có liên quan được kết hợp lại để mang đến nhiều giá trị hơn.
Hiện nay, hệ sinh thái thị giác máy tính cung cấp cho cộng đồng công nghệ một lượng lớn dữ liệu hình ảnh miễn phí. Ví dụ, Thư viện hình ảnh của Đại học Columbia chia sẻ một bộ dữ liệu gồm 100 đối tượng khác nhau được chụp ở mọi góc trong một vòng quay 360 độ.
Học sâu
Học sâu là một phần của trí tuệ nhân tạo dựa trên các nguyên tắc trong cách học của con người để có được kiến thức tốt hơn. Do đó, nó cung cấp những khả năng để cải thiện các quy trình, bao gồm tính chính xác của các kết quả thị giác máy tính.
Các thuật toán học sâu dựa vào các mạng thần kinh để ánh xạ các quy trình con dưới dạng phân cấp khái niệm. Những khái niệm phức tạp được phân loại thành một chuỗi các khái niệm đơn giản hơn nhiều.
Nhận diện khuôn mặt
Nhận dạng khuôn mặt lập bản đồ và lưu trữ danh tính kỹ thuật số nhờ vào các thuật toán học sâu. Loại nhận dạng sinh trắc học này có thể được so sánh với các công nghệ nhận dạng giọng nói, mống mắt hoặc dấu vân tay hiện đang rất phổ biến.
Khái niệm này xuất hiện từ năm 2011 khi Google chứng minh rằng có thể tạo ra một máy dò tìm khuôn mặt chỉ bằng những hình ảnh không được gắn nhãn. Họ đã thiết kế một hệ thống có thể tự học để phát hiện hình ảnh con mèo mà không cần giải thích với hệ thống là con mèo trông như thế nào.
Vào thời điểm đó, mạng lưới thần kinh là 1.000 máy tính được tạo thành từ 16.000 lõi. Nó được nuôi dưỡng với 10 triệu video YouTube ngẫu nhiên, Tiến sĩ J. Dean, người làm việc trong dự án này, đã giải thích trong một cuộc phỏng vấn với New York Times rằng họ không bao giờ nói với hệ thống trong quá trình đào tạo rằng "đây là một con mèo", vì vậy nó, về cơ bản, tự phát minh ra khái niệm về một con mèo.
Tầm nhìn máy tính trong cuộc sống hàng ngày
Ngày nay, điện thoại thông minh có thể sử dụng máy ảnh chất lượng cao để nhận dạng. Ví dụ: iPhone X của Apple chạy công nghệ Face ID để người dùng có thể mở khóa điện thoại của họ. Dữ liệu khuôn mặt này được mã hóa và lưu trữ trên đám mây và nó cũng có thể được sử dụng cho mục đích khác như xác thực khi thanh toán.
Tại Trung Quốc, các chuyên gia nghiên cứu về công nghệ thị giác máy tính đang đưa nó vào cuộc sống hàng ngày một tốc độ gia tăng đều đặn. Không chỉ người tiêu dùng Trung Quốc sử dụng điện thoại thông minh và khả năng nhận dạng khuôn mặt của thiết bị như một phương tiện thanh toán ưa thích mà công nghệ này còn giúp phát hiện và bắt giữ tội phạm.
Điều này có ý nghĩa gì với con người?
Thị giác máy tính đang được sử dụng trong lĩnh vực an ninh để tìm kiếm tội phạm, dự đoán sự di chuyển khẩn cấp của đám đông, v.v.
Bằng cách phát triển ngày càng nhiều thuật toán thị giác máy tính tiên tiến phức tạp và hiệu quả, chúng ta đang cải thiện kết quả của nó và nhận dạng giọng nói của con người vì cả hai chủ đề này đều dựa trên các nguyên tắc so sánh. Tất cả những điều này góp phần tăng cường khả năng nhận thức tình huống của AI và robot.
Khả năng học sâu và sức mạnh của các thuật toán học máy ngày càng lớn mạnh là nguyên nhân của những mối lo ngại liên tục gia tăng, hoặc ít nhất là cần phải có một sự chú ý đặc biệt đến sự phát triển của chúng. Cụ thể, những công nghệ này đang đặt ra các vấn đề về quyền riêng tư và đạo đức.
Tuy nhiên, điều đó không có nghĩa là chúng ta nên dừng lại việc nghiên cứu. Ngược lại, giống như bất kỳ quá trình phát triển công nghệ nào, thị giác máy tính phải được giám sát bởi tất cả mọi người trên toàn cầu thay vì chỉ là một cường quốc công nghiệp hay quân sự hay nào.