Đối với các nhà nghiên cứu và bác sĩ, hàng núi dữ liệu của bệnh viện và hệ thống chăm sóc sức khỏe có thể là mỏ vàng cho trí tuệ nhân tạo (AI) và máy học, nhưng những lo ngại và quy định về quyền riêng tư về dữ liệu đã khiến các nhà khoa học không thể khai thác hết các thông tin đó nhằm mục đích cải thiện các kết quả nghiên cứu.
Giờ đây, các nhà nghiên cứu từ Intel và Đại học Y khoa Pennsylvania cho biết họ đã tìm ra giải pháp Federated leaning - một kỹ thuật học máy (machine learning), đào tạo một thuật toán trên nhiều thiết bị hoặc máy chủ biên phi tập trung (decentralized) đang giữ các mẫu dữ liệu cục bộ, mà không phải trao đổi các dữ liệu đó.
Học liên kết không phải là mới. Google đã phát minh ra khái niệm này để đào tạo các mô hình tiên đoán văn bản của họ. G. Anthony Reina của Intel, kiến trúc sư trưởng về AI của công ty, đã giải thích trong một hội thảo tập trung vào vấn đề an ninh mạng trong chăm sóc sức khỏe gần đây.
Mô hình di chuyển, không phải dữ liệu
Reina cho biết: "Google nhận ra rằng sẽ không vi phạm quyền riêng tư nếu thay vì phân tích dữ liệu một cách cục bộ và gửi chúng đến máy chủ, quy trình thu thập dữ liệu và phát triển các thuật toán mới được tiến hành ngay trên các thiết bị, sau đó các thuật toán này được gửi đi. Đó là lý do Google đưa ra khái niệm học tập liên kết. Với ý tưởng này, dữ liệu thực sự sẽ không di chuyển đi đâu cả. Dữ liệu chỉ tồn tại ở nơi nó tồn tại trên điện thoại di động của người dùng".
Mô hình học liên kết của Google có thể phát hiện ra rằng khi nào điện thoại được sạc pin và kết nối với Wi-Fi, khi đó quá trình "đào tạo mạng nơ-ron trên dữ liệu cục bộ của bạn mới được tiến hành và gửi mô hình này ra ngoài, vì vậy chỉ có mô hình di chuyển chứ không phải dữ liệu", Reina tiếp tục chia sẻ.
Reina và những người khác cho rằng khái niệm tương tự có thể được áp dụng cho dữ liệu chăm sóc sức khỏe. Ý tưởng cũng giống như kịch bản của Google, mô hình di chuyển, thay vì dữ liệu.
Intel và trường đại học Y khoa Pennsylvania đã hợp tác triển khai học liên kết trên 29 tổ chức nghiên cứu và chăm sóc sức khỏe quốc tế để xác định khối u não, và kết quả vô cùng hứa hẹn.
Hình ảnh y tế và Federated Learning
Những phát hiện về Federated Learning và các ứng dụng của nó trong việc chăm sóc sức khỏe đã được công bố trên tạp chí Nature và được trình bày tại sự kiện Siêu máy tính 2020 vào tuần trước.
Reina và nhóm của ông đã có thể đào tạo một mô hình về hình ảnh y tế để xác định khối u não với độ chính xác hơn 99% so với mô hình được đào tạo theo phương pháp truyền thống. Theo Intel, bước đột phá này có thể giúp phát hiện sớm hơn và mang lại kết quả tốt hơn cho hơn 80.000 người được chẩn đoán mắc bệnh u não mỗi năm.
Nghiên cứu được công bố trên tạp chí Nature cũng đưa ra một số ví dụ bổ sung về cách Federated Learning đang cải thiện kết quả chăm sóc sức khỏe mà không làm ảnh hưởng đến quyền riêng tư của dữ liệu.
Học tập liên kết - cải thiện kết quả
Federated Learning đang được sử dụng để quét hồ sơ sức khỏe điện tử giúp tìm ra những bệnh nhân có các triệu chứng tương tự dựa trên dự đoán số lần phải đến bệnh viện thăm khám và điều trị, tỷ lệ tử vong.
Theo báo cáo của Nature, Federated Learning cũng đã được chứng minh là hữu ích trong kỹ thuật liên quan đến hình ảnh y tế và MRI (chụp cộng hưởng từ).
Ngoài chẩn đoán chính xác hơn, Federated Learning còn hứa hẹn sẽ cải thiện việc chăm sóc sức khỏe cho tất cả mọi người, không phân biệt chuyên môn.
Reina giải thích, việc thu thập dữ liệu rộng rãi, ngay cả khi nó không có chất lượng cao nhất, vẫn có lợi. Reina đã sử dụng ví dụ về các lựa chọn "trợ giúp" trong game show "Ai là triệu phú?"
"Nó giống như trò chơi truyền hình "Ai là triệu phú?" Bạn thăm dò ý kiến khán giả, ngay cả khi họ không phải là chuyên gia, thì đó vẫn là kiến thức chung, nếu bạn nhìn vào số liệu thống kê sau đó, khán giả thường sẽ có câu trả lời đúng dù không phải ai cũng là chuyên gia. Bạn có thể lấy một loạt các nhà dự đoán sai, ghép chúng lại với nhau và bạn sẽ có một nhà dự đoán chính xác".
Như vậy, rõ ràng kỹ thuật Federated Learning đang trở thành một phương pháp tốt, giải quyết bài toán đau đầu hiện nay của nhân loại là thu thập dữ liệu để phục vụ nghiên cứu nhưng làm sao để những dữ liệu ấy không bị khai thác bất hợp pháp và ảnh hưởng đến quyền riêng tư của các cá nhân.