Giúp số hóa dữ liệu đầu vào của quá trình chuyển đổi số
Theo các kết quả nghiên cứu của IDC, các công ty, tập đoàn lớn mất khoảng 20-30% doanh thu mỗi năm do quy trình hoạt động không hiệu quả, trong đó việc xử lý tài liệu là một trong những nguyên nhân trực tiếp dẫn đến quy trình hoạt động kém năng suất. Do đó, sự ra đời của công nghệ nhận dạng kí tự quang học OCR từ cuối thế kỉ 20 đã đóng vai trò quan trọng trong việc tăng tốc độ thu thập dữ liệu từ hình ảnh được quét của tài liệu.
Tuy nhiên, ở Việt Nam, nếu như trước đây, công nghệ OCR vẫn chưa được phổ cập và được sử dụng nhiều thì đến năm 2020, giải pháp này đã được ứng dụng mạnh mẽ hơn bao giờ hết, khi đồng loạt các dịch vụ trung gian thanh toán phải xác thực tài khoản người dùng thông qua CMND trước tháng 7/2020 hay các quy định liên quan đến việc mở tài khoản eKYC của Ngân hàng nhà nước.
Giải pháp nhận dạng ký tự quang học tiếng Việt – OCR do Tập đoàn Viettel phát triển. Viettel OCR cho phép nhận dạng và trích xuất chính xác các ký tự từ hình ảnh và file PDF thành văn bản. Sản phẩm giúp doanh nghiệp giải quyết các bài toán như số hóa văn bản và tự động hóa quy trình trong thời đại công nghệ số. Giải pháp nhận dạng ký tự quang học tiếng Việt – OCR đã được trao giải 3 ở hạng mục Giải pháp số xuất sắc trong Giải thưởng Make in Vietnam năm 2020 do Bộ TT&TT tổ chức.
Tháng 12/2020, Viettel cũng đã ứng dụng giải pháp OCR của VTCC trong việc triển khai hệ thống thu phí không dừng, giúp biến thông tin trong ảnh thành chữ viết tự động điền vào phiếu đăng ký. Điều này đã làm giảm thời gian đăng ký dịch vụ cho khách hàng và tiết kiệm chi phí cho công tác nghiệp vụ hậu kiểm, đối soát.
Theo ông Hoàng Trung Hiếu, Giám đốc sản phẩm số hóa văn bản Viettel OCR thuộc VTCC, từ năm 2019, công ty đã nhận định công nghệ OCR là một trong các công cụ quan trọng trong quá trình chuyển đổi số (CĐS).
"Dữ liệu là trung tâm của mọi hình thức CĐS. Từ đó, OCR giúp số hóa dữ liệu đầu vào và là một trong những yêu cầu thiết yếu để bắt đầu CĐS", ông Hiếu nhận định.
Sau 2 năm nghiên cứu và phát triển, được đầu tư mạnh mẽ về con người và cơ sở hạ tầng, VTCC đã nhanh chóng làm chủ công nghệ OCR để ứng dụng vào trong cuộc sống, giúp chính phủ và DN thực hiện CĐS. Các ứng dụng thực tế của OCR do VTCC cung cấp như: giải pháp định danh công dân điện tử Viettel eKYC, giải pháp mở tài khoản ePass của công ty cổ phần giao thông số Việt Nam… cũng như số hóa thông tin bao gồm giấy tờ tùy thân (CMND, CCCD, hộ chiếu, bằng lái xe), đăng ký kinh doanh, đăng ký xe, đăng kiểm xe.
Giải pháp Viettel OCR đang ứng dụng các công nghệ bao gồm công nghệ AI giúp số hóa văn bản và trích xuất thông tin nhanh chóng và chính xác; công nghệ nhận dạng ký tự quang học cho phép nhận dạng tài liệu dạng PDF, dạng ảnh, văn bản giấy...; công nghệ xử lý ngôn ngữ tự nhiên (NLP) giúp tự động hiệu chỉnh thông tin đảm bảo độ chính xác cao về mặt ngữ nghĩa.
Giải pháp Viettel OCR có tập khách hàng đa dạng từ chính phủ, công ty ngân hàng - bảo hiểm - tổ chức tài chính đến chính nội bộ Viettel để phục vụ quá trình CĐS. Kể từ khi thương mại từ tháng 11/2020, giải pháp đã phục vụ hơn 45 triệu lượt sử dụng. "Mục tiêu của chúng tôi là giúp chính phủ, DN đẩy nhanh quá trình CĐS", ông Hiếu cho biết.
Vế kế hoạch trong thời gian tới, giải pháp OCR của công ty đặt mục tiêu tối ưu hóa thời gian triển khai giải pháp và chi phí hạ tầng cho khách hàng.
Giải pháp xử lý tốt ngôn ngữ tiếng Việt với độ chính xác 99%
Ông Hiếu cho rằng, tại thời điểm VTCC quyết định phát triển giải pháp số hóa văn bản Viettel OCR trên thị trường có rất nhiều ứng dụng tương tự. Tuy nhiên, các ứng dụng của OCR trong tiếng Việt còn rất hạn chế do các phương pháp xử lý truyền thông không đạt được độ chính xác đủ tốt trong thực tế. Mặc dù vậy, nhờ ứng dụng cộng nghệ học sâu (Deep Learning), công nghệ OCR tiếng Việt do VTCC đã giải quyết được vấn đề này với độ chính xác trên 99% đối với chữ in, trên 90% đối với chữ viết tay và trên 98% đối với việc trích xuất thông tin theo trường. Giải pháp có cơ chế xử lý song song, giúp đạt hiệu suất 2-3 giây/trang.
Nói về khó khăn trong việc xử lý ngôn ngữ tiếng Việt, ông Hiếu cho rằng, việc này thật sự rất khó do đặc thù là ngôn ngữ có dấu và thiếu các bộ dữ liệu cho máy học. Để đạt được độ chính xác cao từ 98- 99%, nhóm phát triển đã đầu tư rất nhiều nguồn lực để phát triển các thuật toán chuyên biệt và xây dựng các bộ dữ liệu dành riêng cho tiếng Việt.
"Cùng với đó, việc tự phát triển và làm chủ công nghệ giúp chúng tôi khác biệt với các công ty trên thị trường. Nhờ đó, VTCC có thể nhanh chóng đưa ra giải pháp số hóa một tài liệu mới của DN và đặc biệt là đảm bảo bảo mật tuyệt đối dữ liệu", ông Hiếu nhấn mạnh.
Trong quá trình phát triển sản phẩm, để tư vấn giải pháp số hoá, CĐS cho khách hàng, VTCC đã dành rất nhiều thời gian và tâm huyết để tìm hiểu, phân tích quy trình nghiệp vụ của khách hàng vì quy trình đang áp dụng cho con người sẽ cần điều chỉnh, thay đổi để phù hợp với robot. Quá trình này đôi khi đòi hỏi nhóm phát triển phải trở thành những người chuyên viên thực thụ, đặc biệt là các lĩnh vực có mức độ chuyên môn cao. Ví dụ như với ngành Dược, Cục quản lý Dược (Bộ Y tế) đã ứng dụng Trí tuệ nhân tạo (AI) vào việc số hóa giấy tờ và quy trình thẩm định với hồ sơ thuốc điện tử, cụ thể là công nghệ nhận dạng ký tự quang học (OCR) trong việc đăng ký thuốc.
So sánh với các giải pháp khác trên thị trường, theo ông Hiếu, sự khác biệt giữa các giải pháp OCR trên thị trường nằm ở độ chính xác. Vì chỉ cần một sai sót nhỏ trong việc số hóa thông tin đầu vào có thể dẫn tới việc đưa ra các quyết định sai, gây tổn thất cho DN.
"Nhờ ứng dụng công nghệ học sâu Deep Learning và xử lý ngôn ngữ tự nhiên, chúng tôi cung cấp giải pháp số hóa văn bản Viettel OCR với độ chính xác cao từ 98- 99%, thậm chí có thể lên tới 100% nếu dữ liệu đầu vào đạt chuẩn, cao hơn các sản phẩm khác trên thị trường từ 4-5%", ông Hiếu khẳng định.
Đầu năm 2021, Viettel OCR khởi động một dự án có tính đặc thù trong một ngành đặc biệt - đó là Y tế. Với lượng dữ liệu siêu khủng, yêu cầu bảo mật nghiêm ngặt và tri thức ngành cao, Viettel OC đang tham gia vào quy trình đăng ký lưu hành thuốc (tại Cục Quản lý Dược) và quy trình đăng đăng ký công bố/đăng ký quảng cáo thực phẩm bảo vệ sức khỏe (tại Cục An toàn thực phẩm).
Trước khi sử dụng Viettel OCR, Cục Quản lý Dược và Cục An toàn thực phẩm tiếp nhận xử lý các hồ sơ ở dạng bản cứng, DN cần đặt lịch hẹn và nộp trực tiếp tại trụ sở. Ít ai biết Cục quản lý Dược đã từng phải sử dụng nhiều phòng làm việc chỉ để lưu trữ số lượng giấy tờ khổng lồ đó. Thời gian xử lý hồ sơ kéo dài gây tốn kém về nhân lực và thời gian.
Ứng dụng vào thực tế, Viettel OCR tham gia số hoá các hồ sơ đăng ký thuốc tại Bộ phận một cửa bằng cách kiểm tra tính thống nhất và tính đúng đắn của hồ sơ, hỗ trợ các chuyên gia thẩm định giấy tờ pháp lý, dược lý như: mẫu nhãn, hướng dẫn sử dụng, giấy phép thành lập văn phòng đại diện, giấy chứng nhận đủ điều kiện kinh doanh dược, hồ sơ kỹ thuật và theo dõi các quy định liên quan đến việc đáp ứng điều kiện kinh doanh thuốc (GMP, CPP, GLP,…).
Thông tin được đối chiếu tự động từ Đơn đăng ký đến tài liệu chứng minh, từ đó cảnh báo các trường hợp sai lệch, không trùng khớp.
Giai đoạn 2, Viettel OCR rà soát, thẩm định 35 loại hồ sơ với các định dạng khác nhau và gần 60 trường thông tin sẽ được trích xuất, tạo hệ thống thông tin điện tử (metadata) hỗ trợ tra cứu, tìm kiếm, chỉnh sửa và lưu trữ. Ứng dụng công nghệ xử lý ngôn ngữ tự nhiên sẽ hỗ trợ kết quả trả về đúng ngữ nghĩa hơn và có thể kết nối với kho thông tin biệt dược gốc đồ sộ. Kết quả thu được thật ấn tượng: tốc độ nhập liệu của OCR cao hơn 50-60 lần so với cách làm thủ công; những căn phòng giấy tờ giờ thu gọn trong một vài máy chủ; nhu cầu duy trì tài liệu giấy gần như không còn, số giờ lao động tiết kiệm được là không hề nhỏ, độ chính xác ngày càng cao với cơ chế huấn luyện học máy.
Cần ưu tiên sử dụng các giải pháp AI "Make in Vietnam"
Nói về tiềm năng của giải pháp OCR, theo ông Hiếu, công nghệ này giúp DN giải quyết hai vấn đề, một là tự động nhập liệu thông tin, hai là số hóa thông tin để phục vụ việc tự động hóa quy trình bằng robot. Nhờ đó, DN có thể tiết kiệm thời gian, khi việc ứng dụng OCR giúp thực hiện nhanh hơn từ 50 - 60 lần so với nhập liệu thủ công; Giúp cắt giảm hàng nghìn giờ lao động nhập liệu, quản lý hồ sơ bản cứng, nhờ đó nhân sự không phải dành thời gian làm những công việc nhàm chán mà tập trung nhiều hơn vào các nhiệm vụ có mức độ chuyên sâu; Tìm kiếm thông tin nhanh, chính xác hơn khi mọi dữ liệu đều được số hóa…
Còn đối với khách hàng, nhờ ứng dụng OCR, DN sẽ nâng cao trải nghiệm trong các quy trình liên quan đến thủ tục, nhờ đó mang đến sự chuyên nghiệp, hạn chế những cảm xúc tiêu cực trong giao tiếp giữa người - người; Thông tin của người dùng được bảo mật và đảm bảo được thu thập chính xác do lấy tự động, loại bỏ các lỗi nhầm lẫn.
Các tổ chức có nhiều thông tin cần nhập liệu, thủ tục giấy tờ cần xử lý có tiềm năng ứng dụng OCR. Trên thế giới, chính phủ, các công ty ngân hàng, tài chính, bảo hiểm là những tổ chức tiêu biểu ứng dụng giải pháp OCR.
"Mục tiêu của chúng tôi là giúp chính phủ, DN đẩy nhanh quá trình CĐS, nâng cao trải nghiệm khách hàng. Tuy nhiên, hiện tại chúng tôi cũng đang cung cấp các sản phẩm miễn phí trên mobile như ứng dụng xContact - số hóa card visit chỉ với vài chạm", ông Hiếu chia sẻ.
Chia sẻ về lý do tại sao OCR mới chỉ được ứng dụng mạnh mẽ trong thời gian gần đây, ông Hiếu cho rằng, trước đây các phương pháp xử lý truyền thống không đạt được độ chính xác nhận diện cao nên chưa thể ứng dụng trong thực tế. Nhờ ứng dụng phương pháp học sâu vào bài toán OCR đã giúp giải quyết được vấn đề này. Tuy nhiên, phương pháp học sâu yêu cầu rất nhiều dữ liệu và năng lực tính toán toán lớn. Vì vậy, bên cạnh việc ứng dụng học sâu, dữ liệu lớn và sự ra đời của các thiết bị tính toán hiệu năng cao cũng giúp giải quyết vấn đề của OCR.
Về kiến nghị với cơ quan quản lý về các giải pháp "Make in Vietnam", ông Hiếu mong muốn chính phủ và các công ty Việt Nam cần có các quy định ưu tiên sử dụng các sản phẩm, giải pháp AI do người Việt nghiên cứu, phát triển và làm chủ.
Theo báo cáo kết quả thử nghiệm công nghệ xử lý ảnh trong các nghiệp vụ quản lý hồ sơ khách hàng, công nghệ OCR của VTCC có độ chính xác như sau: 98,17% đối với trường thông tin "Tên", 98,37% đối với thông tin "Số giấy tờ", 98,28% đối với thông tin "Ngày sinh", 98,05% đối với thông tin "Ngày cấp" và 99,74% đối với thông tin "Mã địa bàn".