Facebook sử dụng AI để loại bỏ những phát ngôn gây thù hận
Truyền thông - Ngày đăng : 09:07, 26/11/2020
Hate speech là gì?
Hate speech là cụm từ thường được sử dụng để chỉ những phát ngôn tiêu cực, nhằm vào một số đặc điểm bản thân của "nạn nhân", với mục đích kêu gọi kích động sự thù ghét. Cụ thể hơn, phát ngôn thù hận là những phát ngôn có tính chất tấn công, sỉ nhục một cá nhân hoặc một nhóm cá nhân cụ thể, với mục đích reo rắc sự căm ghét hay kêu gọi bạo lực đối với cá nhân hoặc nhóm cá nhân nào đó, vì lý do tôn giáo, sắc tộc, giới tính, quan điểm chính trị…
Phát ngôn thù hận có nguy cơ gây ảnh hưởng xấu tới sự bình yên của xã hội. Trong một số trường hợp, phát ngôn thù hận không chỉ dừng ở "phát ngôn". Nó có thể gây ra bạo lực trong xã hội, gây hận thù giữa các cộng đồng, và thậm chí dẫn đến những hành động cụ thể, như các hành động khủng bố ở một số nước châu Âu và Mỹ...
(Ảnh minh họa)
Ở Việt Nam, hate speech cũng không thiếu trên mạng xã hội. Nhiều khi, không có lý do gì cụ thể như phân biệt chủng tộc, tôn giáo, giới tính, mà đơn giản chỉ là… thích thì chửi, không đồng quan điểm là… lăng nhục. Thậm chí, gia đình của những người bị tình nghi phạm tội cũng có thể trở thành mục tiêu để cư dân mạng "ném đá" với những lời lẽ vô cùng nặng nề. Người càng nổi tiếng thì càng dễ trở thành nạn nhân của những phát ngôn kiểu này.
Ví dụ, một người nổi tiếng trên mạng xã hội từng bị tấn công và "ném đá" thậm tệ trên Facebook chỉ vì quan điểm về một vấn đề không làm hài lòng nhiều người. Thay vì phản biện quan điểm, họ lại tập trung vào lăng mạ hình thức, giới tính của người đó một cách thản nhiên.
Hay việc ca sĩ Lynk Lee bị công kích vì phẫu thuật chuyển giới hồi tháng 6 cũng là một ví dụ điển hình của hate speech.
Sử dụng AI để loại bỏ nội dung gây thù hận
Facebook đã dành nhiều năm để xây dựng và triển khai AI vào việc loại bỏ những nội dung mang tính thù hận trên nền tảng mạng xã hội của mình. Công ty này cho biết hiện họ đang sử dụng công nghệ để chủ động phát hiện và gỡ bỏ gần 95% nội dung. Tuy nhiên, 5% còn lại có thể khó giải quyết.
Mới đây, Facebook cho biết trong quý 3 năm 2020, hệ thống AI của họ đã phát hiện và gỡ bỏ 94,7% trong số 22,1 triệu nội dung khiêu khích sự thù hận trên trang xã hội; tăng từ 80,5% trong số 6,9 triệu nội dung so với cùng kỳ của năm trước. Các số liệu này được lấy từ ấn bản mới nhất của Báo cáo Thực thi Tiêu chuẩn Cộng đồng do công ty phát hành hàng quý kể từ tháng 8.
Bản cập nhật được đưa ra chỉ vài ngày sau khi Giám đốc điều hành Facebook Mark Zuckerberg phát biểu trước Quốc hội về quy định Internet, trong đó ông liên tục chỉ ra sự phụ thuộc của công ty vào các thuật toán để phát hiện nội dung khủng bố và bóc lột trẻ em trước khi nó được lan truyền rộng rãi trên mạng xã hội.
Facebook sử dụng AI để loại bỏ những phát ngôn gây thù hận.
Giống như nhiều mạng xã hội khác, Facebook dựa vào AI để giúp một nhóm người kiểm duyệt một khối lượng nội dung khổng lồ ngày càng tăng trên nền tảng Facebook và Instagram. Việc xóa các bài đăng và quảng cáo phản cảm của người dùng là một nhiệm vụ khó khăn, một phần bởi có những từ ngữ và hình ảnh nếu đứng độc lập thì vô hại nhưng lại có thể gây tổn thương người khác khi được ghép lại với nhau.
Trong một cuộc gọi video với các phóng viên vào tuần trước, Giám đốc công nghệ Facebook, Mike Schroepfer, đã giải thích một số công cụ AI mới nhất mà Facebook đang sử dụng để tìm nội dung có hại trước khi nó được lan truyền, chẳng hạn như sử dụng dữ liệu trực tuyến từ hệ thống của Facebook để cải thiện, thay vì sử dụng một tập hợp dữ liệu ngoại tuyến.
Nội dung khó nhất để AI nắm bắt vẫn là nội dung dựa trên sự tinh tế và ngữ cảnh – những dấu hiệu mà máy tính chưa có khả năng phân biệt được. Schroepfer cũng cho biết thêm, Facebook hiện đang nỗ lực phát hiện các meme kích động sự thù hận; công ty đã tung ra bộ dữ liệu có sẵn công khai liên quan đến nội dung như vậy với hy vọng giúp các nhà nghiên cứu cải thiện khả năng phát hiện.
Ví dụ, nội dung có thể gây tổn thương người khác bằng việc sử dụng các meme như trích dẫn hình ảnh một nghĩa trang được chèn lên đó dòng chữ "bạn thuộc về nơi đây".
"Nếu dòng chữ được chèn lên có nội dung "Bạn thuộc về nơi đây" và hình nền là một sân chơi thì không sao. Nhưng nếu đó là hình ảnh một nghĩa địa, thì có thể được hiểu đó là nội dung gây thù ghét", ông nhấn mạnh.
Rõ ràng là do tính chất của mạng xã hội, nhiều người nấp sau màn hình đã không ngần ngại sử dụng những lời lẽ gây kích động, lặng mạ hoặc xúc phạm người khác, điều họ mà không dám hoặc không thể làm ở ngoài đời.