Những dự án phân tích dữ liệu và AI thảm họa nổi tiếng
Chuyển động ICT - Ngày đăng : 06:35, 26/09/2023
Những dự án phân tích dữ liệu và AI thảm họa nổi tiếng
Những hiểu biết sâu sắc từ dữ liệu và thuật toán học máy (ML) có thể là vô giá, nhưng những sai lầm có thể khiến một tổ chức mất đi danh tiếng, doanh thu và hơn thế nữa. Những sai lầm ngớ ngẩn về trí tuệ nhân tạo (AI) và phân tích dữ liệu nổi bật dưới đây minh họa những gì có thể đã xảy ra.
Năm 2017, The Economist tuyên bố rằng dữ liệu, chứ không phải là dầu mỏ đã trở thành tài nguyên quý giá nhất thế giới. Đoạn điệp khúc này đã được lặp đi lặp lại kể từ đó. Các tổ chức trên mọi ngành đã và đang tiếp tục đầu tư mạnh vào dữ liệu và phân tích. Nhưng giống như dầu mỏ, dữ liệu và phân tích cũng có mặt tối.
Theo báo cáo "State of the CIO 2023" của cio.com, 34% các nhà lãnh đạo CNTT (CIO) nói rằng phân tích dữ liệu và kinh doanh sẽ thúc đẩy khoản đầu tư CNTT nhiều nhất tại tổ chức của họ trong năm 2023. Và 26% CIO cho biết ML/AI sẽ thúc đẩy đầu tư vào CNTT nhiều nhất. Những hiểu biết sâu sắc thu được từ phân tích và hành động do thuật toán học máy thúc đẩy có thể mang lại cho tổ chức lợi thế cạnh tranh, nhưng những sai lầm có thể gây tổn thất nặng nề.
Hiểu dữ liệu và những gì nó cho chúng ta biết là điều quan trọng, nhưng điều quan trọng hơn là phải hiểu các công cụ, biết dữ liệu và ghi nhớ các giá trị của tổ chức.
Dưới đây là một số sai lầm về AI và phân tích nổi bật trong 1 thập kỷ qua để minh họa những gì có thể xảy ra.
Gannett AI sử dụng AI viết báo
Vào tháng 8/2023, chuỗi báo chí Gannett thông báo rằng họ sẽ tạm dừng việc sử dụng một công cụ AI có tên LedeAI sau khi một số bài do AI viết có nội dung lặp đi lặp lại, nội dung chất lượng kém và thiếu các chi tiết chính.
CNN đã chỉ ra một ví dụ, được lưu giữ bởi Wayback Machine của Internet Archive, mở đầu bằng: "The Worthington Christian đã đánh bại Westerville North 2-1 trong một trận bóng đá nam ở Ohio vào thứ 7".
CNN đã tìm thấy những câu chuyện tương tự do LedeAI viết trên các tờ báo địa phương khác của Gannett, bao gồm Louisville Courier Journal, AZ Central, Florida Today và Milwaukee Journal Sentinel.
Sau khi những bài báo bị chế giễu gay gắt trên mạng xã hội, Gannett đã quyết định tạm dừng sử dụng LedeAI ở tất cả các địa phương đã sử dụng dịch vụ này.
Trong một tuyên bố với CNN, Giám đốc điều hành (CEO) LedeAI Jay Allred bày tỏ sự hối tiếc và hứa sẽ nỗ lực suốt ngày đêm để khắc phục vấn đề.
AI tuyển dụng của iTutorGroup từ chối ứng viên do tuổi tác
Vào tháng 8/2023, công ty đào tạo iTutorGroup đã đồng ý trả 365.000 USD để giải quyết vụ kiện do Ủy ban Cơ hội Việc làm Công bằng Hoa Kỳ (EEOC) đưa ra. Cơ quan liên bang cho biết công ty cung cấp dịch vụ dạy kèm từ xa cho sinh viên ở Trung Quốc đã sử dụng phần mềm tuyển dụng do AI cung cấp để tự động từ chối ứng viên nữ từ 55 tuổi trở lên và ứng viên nam từ 60 tuổi trở lên.
EEOC cho biết hơn 200 ứng viên đủ điều kiện đã bị phần mềm tự động từ chối.
Chủ tịch EEOC Charlotte A. Burrows cho biết trong một tuyên bố: “Phân biệt tuổi tác là không công bằng và trái pháp luật. Ngay cả khi công nghệ tự động hóa việc phân biệt đối xử, người sử dụng lao động vẫn phải chịu trách nhiệm”.
iTutorGroup phủ nhận mọi hành vi sai trái nhưng đã quyết định giải quyết vụ kiện. Họ đã đồng ý áp dụng các chính sách chống phân biệt đối xử mới.
ChatGPT gây ảo giác
Những tiến bộ có được vào năm 2023 bởi các mô hình ngôn ngữ lớn (LLM) đã thu hút sự được quan tâm rộng rãi về tiềm năng biến đổi mà AI tạo ra trên hầu hết mọi ngành. ChatGPT của OpenAI đã trở thành trung tâm của sự quan tâm ngày càng tăng này, báo trước cách AI tổng hợp, nắm giữ sức mạnh để phá vỡ tính chất công việc ở hầu hết mọi lĩnh vực kinh doanh.
Nhưng công nghệ này vẫn còn phải nỗ lực rất nhiều trước khi có thể đảm nhận được hầu hết các quy trình công việc một cách đáng tin cậy, như luật sư Steven A. Schwartz đã học được bài học khi ông gặp rắc rối với thẩm phán Kevin Castel vào năm 2023 sau khi sử dụng ChatGPT để nghiên cứu các án lệ trong vụ án kiện hãng hàng không Avianca của Colombia.
Schwartz, luật sư của Levidow, Levidow & Oberman, đã dùng chatbot AI của OpenAI để tìm hiểu các vụ án đã có từ trước nhằm hỗ trợ cho vụ kiện do nhân viên Avianca là Roberto Mata đệ đơn về những vết thương mà ông đã gặp phải vào năm 2019. Kết quả là có ít nhất 6 trường hợp được trình trong bản tóm tắt do OpenAI hiển thị không tồn tại.
Trong một tài liệu được cung cấp vào tháng 5, thẩm phán Castel đã lưu ý, các vụ kiện do Schwartz đệ trình bao gồm tên và ghi chép giả, cùng với các trích dẫn và ghi chú nội bộ không có thật. Đối tác của Schwartz, Peter LoDuca - luật sư đại diện của Mata do đã ký vào bản tóm tắt đã khiến cho bản thân cũng gặp nguy hiểm.
Schwartz nói với tòa, đây là lần đầu ông dùng ChatGPT làm nguồn nghiên cứu pháp lý và ông: “Không biết về khả năng nội dung của nó có thể sai”. Ông thừa nhận chưa xác nhận nguồn tin do chatbot AI cung cấp.
Ông cũng nói: “Rất hối hận vì đã sử dụng AI tổng hợp để bổ sung cho nghiên cứu pháp lý và sẽ không bao giờ làm như vậy nữa nếu không có sự xác minh tuyệt đối về tính xác thực của nội dung”.
Vào tháng 6/2023, thẩm phán Castel đã phạt Schwartz và LoDuca 5.000 USD. Trong một phán quyết riêng vào tháng 6, thẩm phán Castel đã bác bỏ vụ kiện của Mata chống lại Avianca.
Thuật toán AI xác định mọi thứ trừ COVID-19
Kể từ khi bùng phát đại dịch COVID-19, nhiều tổ chức đã tìm cách áp dụng thuật toán ML để giúp các bệnh viện chẩn đoán hoặc phân loại bệnh nhân nhanh hơn. Nhưng theo Viện Turing (Vương quốc Anh), một trung tâm quốc gia về khoa học dữ liệu và AI, các công cụ dự đoán gần như không tạo ra sự khác biệt nào.
MIT Technology Review đã ghi lại một số lỗi, hầu hết đều xuất phát từ lỗi trong cách đào tạo hoặc thử nghiệm các công cụ. Việc sử dụng dữ liệu bị dán nhãn sai hoặc dữ liệu từ các nguồn không xác định là thủ phạm phổ biến.
Derek Driggs, một nhà nghiên cứu về ML tại Đại học Cambridge, đã xuất bản một bài báo trên tạp chí Nature Machine Intelligence, khám phá việc sử dụng các mô hình học sâu (DL) để chẩn đoán virus.
Bài báo xác định kỹ thuật này không phù hợp để sử dụng lâm sàng. Ví dụ, nhóm của Driggs phát hiện ra rằng mô hình của chính họ có sai sót vì nó được đào tạo trên một bộ dữ liệu bao gồm các bản quét bệnh nhân đang nằm trong khi được quét và những bệnh nhân đang đứng. Những bệnh nhân đang nằm có nhiều khả năng bị bệnh nặng hơn, vì vậy, thuật toán đã học cách xác định nguy cơ mắc bệnh COVID dựa trên vị trí của người được quét.
Một ví dụ tương tự bao gồm một thuật toán được đào tạo với bộ dữ liệu bao gồm các bản quét ngực của trẻ khỏe mạnh. Thuật toán đã học để xác định đó là trẻ em chứ không phải bệnh nhân có nguy cơ cao.
Zillow nợ hàng triệu USD do thảm họa mua nhà thuật toán
Vào tháng 11/2021, thị trường bất động sản trực tuyến Zillow đã thông báo về việc họ sẽ kết thúc hoạt động của Zillow Offers và cắt giảm 25% - khoảng 2.000 nhân viên - trong vài quý tới. Tai ương này là kết quả của tỷ lệ lỗi trong thuật toán ML mà họ sử dụng để dự đoán giá nhà.
Zillow Offers là một chương trình trong đó công ty đưa ra các đề nghị bằng tiền mặt đối với các bất động sản dựa trên “Zillow” giá trị ngôi nhà bắt nguồn từ thuật toán ML. Ý tưởng là cải tạo các tài sản và bán chúng một cách nhanh chóng. Nhưng người phát ngôn của Zillow nói với CNN rằng thuật toán có tỷ lệ lỗi trung bình là 1,9% và tỷ lệ lỗi có thể cao hơn nhiều, tới 6,9%, đối với những ngôi nhà thị trường ngoài (off-market - một ngôi nhà không phải để bán hoặc được bán nhưng không được liệt kê).
CNN đưa tin Zillow đã mua 27.000 căn nhà thông qua Zillow Offers kể từ khi ra mắt vào tháng 4/2018 nhưng chỉ bán được 17.000 căn cho đến cuối tháng 9/2021. Các hiện tượng "thiên nga đen" (Black swan) như đại dịch COVID-19 và tình trạng thiếu lao động cải tạo nhà đã góp phần gây ra vấn đề về độ chính xác của thuật toán.
Zillow cho biết thuật toán đã khiến họ vô tình mua nhà với giá cao hơn so với ước tính về giá bán trong tương lai, dẫn đến khoản lỗ hàng tồn kho trị giá 304 triệu USD trong quý 3/2021.
Thuật toán CSSK không gắn cờ được bệnh nhân da đen
Vào năm 2019, một nghiên cứu được công bố trên Science đã tiết lộ, thuật toán dự đoán chăm sóc sức khỏe (CSSK), được các bệnh viện và công ty bảo hiểm trên khắp Hoa Kỳ sử dụng để xác định những bệnh nhân cần chương trình “quản lý chăm sóc rủi ro cao”, ít có khả năng chọn ra bệnh nhân da đen.
Các chương trình quản lý chăm sóc có nguy cơ cao cung cấp đội ngũ điều dưỡng được đào tạo và theo dõi chăm sóc ban đầu cho các bệnh nhân mắc bệnh mãn tính nhằm nỗ lực ngăn ngừa các biến chứng nghiêm trọng. Nhưng thuật toán đã có nhiều khả năng giới thiệu bệnh nhân da trắng tham gia các chương trình này hơn là bệnh nhân da đen.
Nghiên cứu cho thấy, thuật toán sử dụng các khoản chi tiêu CSSK mẫu để xác định nhu cầu CSSK của một cá nhân. Nhưng theo tạp chí khoa học Scientific American, chi phí CSSK của những bệnh nhân da đen ốm yếu ngang bằng với chi phí của những người da trắng khỏe mạnh hơn, điều đó có nghĩa là họ nhận được điểm rủi ro thấp hơn ngay cả khi nhu cầu CSSK của họ lớn hơn.
Các nhà nghiên cứu của nghiên cứu cho rằng, một số yếu tố có thể khiến cho điều nói trên xảy ra. Đầu tiên, người da màu có nhiều khả năng có thu nhập thấp hơn, điều này, ngay cả khi được bảo hiểm, có thể khiến họ ít có khả năng tiếp cận dịch vụ chăm sóc y tế hơn. Thành kiến ngầm cũng có thể khiến người da màu nhận được dịch vụ chăm sóc chất lượng thấp hơn.
Mặc dù nghiên cứu không nêu tên thuật toán hoặc nhà phát triển nhưng các nhà nghiên cứu cho Scientific American biết họ đang làm việc với nhà phát triển để giải quyết tình huống này.
Bộ dữ liệu đào tạo chatbot của Microsoft đưa ra các dòng tweet phân biệt chủng tộc
Vào tháng 3/2016, Microsoft đã biết, việc sử dụng tương tác Twitter làm dữ liệu huấn luyện cho các thuật toán ML có thể mang lại kết quả đáng thất vọng.
Microsoft đã phát hành Tay, một chatbot AI, trên nền tảng truyền thông xã hội. Công ty mô tả nó như một thử nghiệm về “sự hiểu biết trong hội thoại”. Ý tưởng là chatbot sẽ mang hình dáng của một cô gái tuổi "teen" và tương tác với các cá nhân thông qua Twitter bằng cách sử dụng sự kết hợp giữa ML và xử lý ngôn ngữ tự nhiên.
Microsoft đã "gieo mầm" cho chatbot dữ liệu công khai ẩn danh và một số tài liệu do các diễn viên hài viết sẵn, sau đó cho phép nó học và phát triển từ các tương tác trên mạng xã hội.
Trong vòng 16 giờ, chatbot đã đăng hơn 95.000 dòng tweet và những dòng tweet đó nhanh chóng trở thành các nội dung phân biệt chủng tộc, và bài Do Thái một cách công khai. Microsoft nhanh chóng dừng dịch vụ này để điều chỉnh và cuối cùng là "rút phích cắm".
“Chúng tôi vô cùng xin lỗi vì những dòng tweet xúc phạm và gây tổn thương ngoài ý muốn từ Tay, những dòng tweet không đại diện cho chúng tôi,” Peter Lee, phó chủ tịch tập đoàn, Microsoft Research & Incubations (khi đó là phó chủ tịch của Microsoft Healthcare), đã viết trong một bài đăng trên blog chính thức của Microsoft sau vụ việc.
Ông Lee lưu ý, người tiền nhiệm của Tay, Xiaoice, được Microsoft phát hành tại Trung Quốc vào năm 2014, đã trò chuyện thành công với hơn 40 triệu người trong 2 năm trước khi Tay ra mắt. Điều mà Microsoft không tính đến là một nhóm người dùng Twitter sẽ ngay lập tức bắt đầu tweet những bình luận phân biệt chủng tộc và phân biệt đối xử với Tay. Bot nhanh chóng học hỏi từ đó và kết hợp nó vào các tweet của riêng mình.
“Mặc dù chúng tôi đã chuẩn bị cho nhiều kiểu lạm dụng hệ thống, nhưng chúng tôi đã không thực hiện bước giám sát quan trọng đối với cuộc tấn công cụ thể này. Kết quả là Tay đã tweet những từ ngữ và hình ảnh cực kỳ không phù hợp và đáng chê trách,” Lee viết.
Công cụ AI hỗ trợ tuyển dụng của Amazon chỉ khuyến nghị nam giới
Giống như nhiều công ty lớn, Amazon đang khao khát có các công cụ có thể giúp bộ phận nhân sự sàng lọc các ứng viên để tìm ra những người tốt nhất. Vào năm 2014, Amazon bắt đầu phát triển phần mềm tuyển dụng được hỗ trợ bởi AI để làm việc đó. Chỉ có một vấn đề duy nhất: Hệ thống rất ưu tiên cho các ứng viên nam. Năm 2018, Reuters đưa tin Amazon đã hủy dự án.
Hệ thống của Amazon cho các ứng viên xếp hạng sao từ 1 - 5. Nhưng các mô hình ML cốt lõi của hệ thống đã được đào tạo dựa trên các hồ sơ xin việc có giá trị trong 10 năm gửi tới Amazon - hầu hết những người gửi là nam giới. Từ dữ liệu đào tạo đó, hệ thống bắt đầu "xử" các cụm từ trong sơ yếu lý lịch bao gồm từ “phụ nữ” và thậm chí hạ cấp các ứng viên từ các trường đại học toàn nữ.
Vào thời điểm đó, Amazon cho biết công cụ này chưa bao giờ được các nhà tuyển dụng Amazon sử dụng để đánh giá ứng viên.
Công ty đã cố gắng chỉnh sửa công cụ này để làm cho nó trở nên trung lập, nhưng cuối cùng quyết định rằng công ty không thể đảm bảo rằng nó sẽ không "học" được một số cách phân biệt đối xử khác để phân loại ứng viên và đã kết thúc dự án.
Phân tích mục tiêu vi phạm quyền riêng tư
Vào năm 2012, một dự án phân tích của gã khổng lồ bán lẻ Target đã cho thấy, các công ty có thể tìm hiểu được bao nhiêu về khách hàng từ dữ liệu của họ.
Theo tờ New York Times, vào năm 2002, bộ phận tiếp thị của Target bắt đầu tự hỏi, làm cách nào để xác định liệu khách hàng có đang mang thai hay không? Câu hỏi này đã dẫn đến một dự án phân tích dự đoán nổi tiếng khiến nhà bán lẻ vô tình tiết lộ cho gia đình một cô gái tuổi "teen" rằng cô ấy đang mang thai. Và sự kiện này đã dẫn đến việc tất cả các bài báo và blog tiếp thị đều trích dẫn vụ việc như một phần lời khuyên để tránh “yếu tố rùng rợn”.
Bộ phận tiếp thị của Target muốn xác định những người đang mang thai vì có những giai đoạn nhất định trong cuộc đời - quan trọng nhất là mang thai - khi đó mọi người có nhiều khả năng thay đổi hoàn toàn thói quen mua sắm.
Ví dụ: nếu Target có thể tiếp cận khách hàng trong khoảng thời gian đó, thì họ có thể nuôi dưỡng những hành vi mới ở những khách hàng, khiến họ chuyển sang Target để mua hàng tạp hóa, quần áo hoặc các hàng hóa khác.
Giống như tất cả các nhà bán lẻ lớn khác, Target đã thu thập dữ liệu về khách hàng của mình thông qua mã người mua hàng, thẻ tín dụng, khảo sát, v.v... Họ kết hợp dữ liệu này với dữ liệu nhân khẩu học và dữ liệu của bên thứ ba mà họ đã mua. Việc xử lý tất cả những dữ liệu này cho phép nhóm phân tích của Target xác định rằng có khoảng 25 sản phẩm được Target bán có thể được phân tích để tạo ra điểm "dự đoán mang thai". Bộ phận tiếp thị sau đó có thể nhắm mục tiêu đến những khách hàng có điểm cao bằng phiếu giảm giá và thông điệp tiếp thị.
Việc nghiên cứu tình trạng sinh sản của khách hàng có thể khiến một số người cảm thấy rùng rợn. Theo New York Times, công ty đã không từ bỏ hoạt động tiếp thị có mục tiêu của mình mà còn bắt đầu đưa vào quảng cáo những thứ mà họ biết phụ nữ mang thai sẽ không mua - bao gồm quảng cáo về máy cắt cỏ bên cạnh quảng cáo về tã lót - để tạo nên sự kết hợp quảng cáo, tạo cảm giác ngẫu nhiên cho khách hàng.
Tài liệu tham khảo:
1. https://www.economist.com/lead...
2. https://edition.cnn.com/2023/0...
3. https://edition.cnn.com/2023/0...
4. https://www.eeoc.gov/