Tiêu chuẩn mã hóa video hiệu suất cao (HEVC) là dự án video liên kết mới nhất của nhóm chuyên gia mã hóa video ITU-T (VCEG) và nhóm chuyên gia ảnh động ISO/IEC (MPEG) đã được đưa ra vào đầu năm 2013. Tiêu chuẩn này trực tiếp hướng đến tiêu chuẩn trước đó là H.264/MPEG-4.AVC, đã được phát triển từ năm 1999 đến năm 2003 và được mở rộng từ 2003-2009. H.264/MPEG-4.AVC là công nghệ mã hóa khả thi đối với video số trong hầu hết mọi lĩnh vực và cơ bản đã thay thế các tiêu chuẩn cũ. Các ứng dụng có thể kể đến là quảng bá tín hiệu HDTV qua các hệ thống truyền dẫn vệ tinh, cáp và mặt đất, các hệ thống nhận biết và chỉnh sửa nội dung video, máy quay, các ứng dụng an ninh, video mạng Internet và di động, đĩa Blu-ray và các ứng dụng đàm thoại thời gian thực. Tuy nhiên, sự gia tăng về tính đa dạng của các dịch vụ, cũng như về tính phổ biến của video HD, và các khuôn dạng siêu HD (ultra HD) (độ phân giải 4kx2k hoặc 8kx4k) đang đặt ra những yêu cầu mạnh mẽ về hiệu suất mã hóa, đặc biệt khi độ phân giải cao hơn được thực hiện bởi việc thu nhận và hiển thị stereo hoặc đa cảnh (multiview). Hơn nữa, lưu lượng tạo ra bởi các ứng dụng video hướng đến các thiết bị di động và máy tính bảng, cũng như các yêu cầu truyền dẫn đối với các dịch vụ video theo yêu cầu là những thách thức đối với mạng truyền thông hiện nay. Mong muốn chất lượng và độ phân giải cao hơn cũng đã đặt ra đối với các ứng dụng di động. Chính vì vậy, HEVC đã được thiết kế để tập trung chủ yếu vào hai vấn đề chính: tăng độ phân giải video và tăng cường kiến trúc xử lý song song. Cú pháp của HEVC có đặc điểm chung phù hợp với nhiều ứng dụng. Cũng như các tiêu chuẩn mã hóa video trước đây, trong tiêu chuẩn HEVC, cấu trúc dòng bit, cú pháp, cùng các ràng buộc về dòng bit và ánh xạ dòng bit để tạo ra các ảnh giải mã là được chuẩn hóa.
1.BỘ MÃ HÓA HEVC
Tiêu chuẩn HEVC được thiết kế để đạt nhiều mục tiêu như hiệu suất mã hóa, dễ dàng tích hợp hệ thống truyền tải và có tính bền vững, cũng như khả năng thực thi sử dụng các kiến trúc xử lý song song. Các thành phần cơ bản của thiết kế gồm lớp mã hóa video, kiến trúc cú pháp mức cao, các bộ tham số bổ sung, các tập ảnh tham chiếu và danh sách ảnh tham chiếu đã giúp cho thiết kế mã hóa HEVC đạt được những mục tiêu này.
Lớp mã hóa video của HEVC thực hiện cách tiếp cận lai (dự đoán trong ảnh/liên ảnh và mã hóa biến đổi 2D) như được sử dụng trong tất cả các tiêu chuẩn nén video kể từ H.261. Sơ đồ khối của bộ mã hóa video HEVC được thể hiện như ở Hình 1.
Cụ thể thuật toán mã hóa thực hiện như sau: Mỗi ảnh đầu vào được chia thành các khối ảnh, sau đó được mã hóa và truyền tải tới bộ giải mã. Thông thường ảnh đầu tiên của chuỗi video được mã hóa sử dụng dự đoán trong ảnh. Các ảnh còn lại của chuỗi sử dụng các chế độ mã hóa dự đoán liên ảnh theo thời gian. Quá trình mã hóa dự đoán liên ảnh sẽ phải lựa chọn dữ liệu chuyển động bao gồm ảnh tham chiếu và vector chuyển động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh. Bộ mã hóa và giải mã sẽ cùng tạo ra các tín hiệu dự đoán liên ảnh giống nhau nhờ sử dụng kỹ thuật bù chuyển động (MC) và thông tin phụ (side information) là dữ liệu quyết định chế độ hoạt động.
Tín hiệu dư thừa của dự đoán trong ảnh hoặc liên ảnh sẽ được biến đổi nhờ phép biến đổi không gian tuyến tính. Sau đó, các hệ số biến đổi này được định cỡ, lượng tử hóa, mã hóa entropy và được truyền cùng với thông tin dự đoán.
Đồng thời, bộ mã hóa cũng sao chép lại mạch vòng xử lý giải mã sao cho cả hai phía mã hóa và giải mã cùng tạo ra các dự đoán giống nhau đối với ảnh kế tiếp. Do đó, các hệ số biến đổi lượng tử hóa sẽ được tạo lại qua định cỡ ngược, biến đổi ngược để tạo lại gần đúng tín hiệu dư thừa. Tín hiệu dư thừa này được cộng với tín hiệu dự đoán rồi đưa đến một hoặc hai bộ lọc để làm trơn ảnh. Ảnh biểu diễn cuối cùng được lưu trong bộ đệm ảnh giải mã và được sử dụng để dự đoán cho các ảnh tiếp theo. Nhìn chung, thứ tự mã hóa và giải mã các ảnh thường khác so với thứ tự ảnh đến từ nguồn. Do đó, cần có sự phân biệt giữa thứ tự giải mã và thứ tự đầu ra của bộ giải mã.
2.MỘT SỐ ĐẶC TÍNH NỔI BẬT CỦA HEVC
Một số đặc tính nổi bật cơ bản của HEVC so với các chuẩn mã hóa video trước đó, bao gồm: cấu trúc cây mã hóa, dự đoán trong ảnh, mã hóa vector chuyển động và các công cụ xử lý song song.
Cấu trúc cây mã hóa
-Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB).
Thành phần lõi của lớp mã hóa trong các tiêu chuẩn trước là macroblock, gồm 1 khối 16x16 các mẫu thành phần chói và 2 khối 8x8 các mẫu thành phần mầu (lấy mẫu 4:2:0). Trong khi đó, cấu trúc tương tự ở HEVC là đơn vị cây mã hóa (CTU), cụ thể ảnh được chia thành các CTU, mỗi CTU sẽ có CTB chói và các CTB mầu. CTB chói là khối có LxL mẫu thành phần chói, còn CTB mầu là khối có L/2xL/2 mẫu thành phần mầu. HEVC cho phép các CTB có kích thước thay đổi (L = 16, 32, 64) được chọn theo yêu cầu của bộ mã hóa về bộ nhớ, độ phức tạp tính toán và điều này cũng cho phép hiệu quả mã hóa tốt hơn. Do đó, một CTU điển hình sẽ gồm có 1 CTB thành phần chói, 2 CTB thành phần mầu (CTB Cb, CTB Cr), cùng thành phần cú pháp đi kèm và CTU chính là đơn vị xử lý cơ bản được sử dụng trong tiêu chuẩn để xác định cho quá trình giải mã.
-Đơn vị mã hóa (CU) và khối mã hóa (CB):
Các khối CTB chói và mầu có thể được sử dụng trực tiếp làm khối mã hóa CB hoặc có thể được chia tiếp thành nhiều CB. HEVC hỗ trợ việc phân chia CTB thành nhiều khối mã hóa CB nhỏ hơn sử dụng cấu trúc cây. Chia cây trong HEVC được áp dụng đồng thời đối với cả thành phần chói và mầu. Cú pháp cây bốn (quadtree syntax) chứa trong CTU cho phép chia các CB có kích cỡ và vị trí thích hợp dựa trên đặc tính tín hiệu của vùng tạo bởi CTB. Do đó, gốc của cây bốn là CTU. Thông thường, kích cỡ của CB được xác định là: 8x8 < kích cỡ CB size < kích cỡ CTB. Khi đó, đơn vị mã hóa CU sẽ gồm 1 CB chói và 2 CB mầu, cùng cú pháp đi kèm.
-Đơn vị dự đoán (PU) và khối dự đoán (PB).
Quyết định việc mã hóa khối ảnh sử dụng dự đoán trong ảnh hay liên ảnh được thực hiện ở mức CU. Cấu trúc phân chia PU có gốc tại mức CU. Tùy thuộc vào kiểu dự đoán mà các CB chói và mầu sau đó có thể được phân chia thành các khối dự đoán (PB): chói và mầu. Mỗi một PB sẽ chứa một vector chuyển động nếu trong mảng P. HEVC hỗ trợ các kích cỡ PB khác nhau từ 4x4 cho đến 64x64.
Khi chế độ dự đoán là trong ảnh, kích cỡ PB là kích cỡ khối, tại đó chế độ dự đoán trong ảnh 'Xđược thiết lập giống như kích cỡ CB đối với tất cả các kích cỡ khối ngoại trừ kích cỡ CB nhỏ nhất được cho phép trong dòng bit. Chế độ dự đoán liên ảnh cờ sử dụng để chỉ thị việc CB được chia thành 4 phần tư PB hay không sao cho mỗi phần tư sẽ có chế độ dự đoán trong ảnh riêng.
Lý do của việc phân chia này là cho phép các lựa chọn chế độ dự đoán trong ảnh riêng biệt đối với các khối nhỏ 4x4. Khi dự đoán trong ảnh thành phần chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần mầu cũng sử dụng các khối 4x4 (mỗi khối là cùng vùng ảnh như 4 khối 4x4 thành phần chói).
Khi chế độ dự đoán là liên ảnh, các CB chói và mầu được khuyến nghị chia thành 1, 2 hoặc 4 PB. Việc chia thành 4 PB chỉ được cho phép khi kích cỡ CB bằng kích cỡ CB nhỏ nhất cho phép. Khi CB được chia thành 4 PB, mỗi PB là vùng phần tư của CB. Khi CB chia thành 2 PB, thì sẽ có 6 kiểu chia. Các kiểu chia CB dự đoán liên ảnh được thể hiện ở Hình 4. Các kiểu phân chia ở phía trên của Hình 4 chỉ ra các trường hợp không chia CB có kích cỡ MxM, mà chia CB thành 2 PB có kích cỡ MxM/2 hoặc M/2xM, hoặc chia thành 4 PB có kích cỡ M/2xM/2.
Bốn kiểu chia ở Hình 4 đề cập đến kiểu chia chuyển động không đối xứng (AMP), và chỉ cho phép khi M là 16 hoặc lớn hơn đối với thành phần chói. Một PB của phân chia không đối xứng có chiều cao hoặc chiều rộng M/4 và chiều rộng hoặc chiều cao M, tương ứng, PB khác lấp đầy phần còn lại của CB có chiều cao hoặc chiều rộng 3M/4 và chiều rộng hoặc chiều cao M. Mỗi PB dự đoán liên ảnh được gán 1 hoặc 2 vector chuyển động và các chỉ thị ảnh tham chiếu. Để tối thiểu hóa bộ nhớ, các PB của thành phần chói kích cỡ 4x4 không được cho phép đối với dự đoán liên ảnh và các PB của thành phần mầu kích cỡ 4x8 và 8x4 được hạn chế đối với mã hóa dự đoán một chiều. PB chói và các PB mầu, cùng với cú pháp dự đoán đi kèm tạo thành PU.
-Đơn vị biến đổi (TU) và khối biến đổi (TB).
Dư thừa dự đoán được mã hóa sử dụng các biến đổi khối. Cấu trúc cây TU có gốc tại mức CU. Dư thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp tục phân chia thành các TB chói nhỏ hơn.
Chỉ có phân chia CB và TB hình vuông được khuyến nghị, trong đó mỗi khối được chia đệ quy thành các phần tư. Đối với CB chói kích cỡ MxM đã cho, sẽ có cờ thông báo việc có chia thành 4 khối kích cỡ M/2xM/2 hay không. Các khối nút lá có được từ cây bốn dư thừa là các TB được tiếp tục xử lý bởi mã hóa biến đổi. Bộ mã hóa sẽ chỉ thị các kích cỡ TB chói lớn nhất và nhỏ nhất sử dụng. Việc phân chia được ngầm định khi kích cỡ CB lớn hơn kích cỡ TB lớn nhất. Việc không phân chia được ngầm định khi việc phân chia làm cho kích cỡ TB chói nhỏ hơn kích cỡ nhỏ nhất đã chỉ thị. Kích cỡ TB chói bằng một nửa kích cỡ TB mầu ở mỗi hướng, ngoại trừ khi kích cỡ TB chói là 4x4, trong đó TB mầu 4x4 đơn được sử dụng cho vùng đó đã được phủ bởi 4 TB chói 4x4. Trong trường hợp các CU dự đoán trong ảnh, các mẫu giải mã của các TB lân cận nhất (trong hoặc ngoài CB) được sử dụng làm dữ liệu tham chiếu cho dự đoán trong ảnh.
Khác với các tiêu chuẩn trước, thiết kế HEVC cho phép TB trải rộng qua nhiều PB đối với các CU dự đoán liên ảnh để tối đa hóa hiệu suất mã hóa của việc phân chia TB có cấu trúc cây bốn.
Như vậy, trong cấu trúc cây mã, các kích cỡ CTB lớn lại còn quan trọng hơn đối với hiệu suất mã hóa khi video có độ phân giải cao hơn được sử dụng. Đồng thời, nó còn làm tăng hiệu suất mã hóa trong khi giảm được thời gian giải mã. Hơn nữa, các kích cỡ của PB và TB khác nhau cho phép việc mã hóa linh hoạt hơn, cụ thể mã hóa sẽ hiệu quả hơn khi chọn khối có kích cỡ lớn ở những vùng trơn mịn, và kích cỡ khối nhỏ ở những vùng nhiều chi tiết.
ThS. Nguyễn Thị Thu Hiên
(còn tiếp)