Có cần sức mạnh của LLM cho hầu hết các phân tích dữ liệu?

Chuyển động ICT - Ngày đăng : 09:10, 28/02/2025

Trong thời đại công nghệ phát triển như vũ bão, các mô hình ngôn ngữ lớn (LLM) như GPT-3, ChatGPT, Google Gemini, DeepSeek và Microsoft Copilot đang trở thành tâm điểm chú ý.

Chuyển động ICT

Có cần sức mạnh của LLM cho hầu hết các phân tích dữ liệu?

Tuấn Trần • 28/02/2025 09:10

Chúng hứa hẹn cách mạng hóa cách chúng ta tương tác với dữ liệu, tự động hóa các tác vụ phức tạp và khai phá thông tin từ dữ liệu phi cấu trúc. Tuy nhiên, câu hỏi đặt ra là: Liệu chúng ta có thực sự cần sức mạnh khổng lồ của LLM cho hầu hết các phân tích dữ liệu hàng ngày hay không?

Liệu chúng ta có thực sự cần sức mạnh khổng lồ của LLM cho hầu hết các phân tích dữ liệu hàng ngày hay không?

LLM: Cường điệu hay hữu ích?

LLM là những mô hình học sâu cực kỳ phức tạp, được đào tạo trên các tập dữ liệu khổng lồ. Chúng có khả năng xử lý ngôn ngữ tự nhiên, tạo văn bản chất lượng cao, và thậm chí diễn giải các sắc thái dữ liệu mà các phương pháp truyền thống khó có thể đạt được.

Ví dụ, trong khoa học đời sống, LLM có thể phân tích hàng nghìn bài báo nghiên cứu để đẩy nhanh quá trình khám phá và bào chế thuốc chữa bệnh. Trong lĩnh vực bán lẻ, chúng có thể cá nhân hóa khuyến nghị sản phẩm và tối ưu hóa các chiến dịch tiếp thị.

Tuy nhiên, sức mạnh này đi kèm với số tiền đầu tư đáng kể. Việc đào tạo và vận hành LLM đòi hỏi nguồn tài nguyên tính toán khổng lồ, dẫn đến lượng khí thải carbon cao... Điều này đặt ra câu hỏi về tính bền vững trong việc sử dụng LLM trong các tình huống không thực sự cần thiết.

Phân tích dữ liệu: Nhu cầu thực tế của doanh nghiệp

Theo kinh nghiệm của bà Chitra Sundaram, CEO quản lý dữ liệu tại Cleartelligence, trong việc xây dựng chiến lược dữ liệu và phân tích cho các tổ chức, hầu hết các doanh nghiệp (DN) chỉ cần những công cụ cơ bản để đáp ứng nhu cầu phân tích của họ.

Theo bà Chitra Sundaram, các nhu cầu phổ biến thường bao gồm: Hiển thị dữ liệu rõ ràng, bảng điều khiển trực quan và dễ sử dụng; Phân tích mô tả, xác định xu hướng và KPI (chỉ số đo lường và đánh giá hiệu quả hoạt động); Phân tích dự đoán, dự báo doanh số hoặc hiệu suất; Tự động hóa báo cáo, tạo báo cáo định kỳ một cách tự động.

Ví dụ, tại Parexel, nơi bà Chitra Sundaram từng làm việc, trọng tâm là phân tích dữ liệu thử nghiệm lâm sàng để xác định xu hướng trong kết quả chẩn đoán bệnh nhân và dự đoán thành công của các thử nghiệm trong tương lai. Tại Cleartelligence, nhu cầu của khách hàng đa dạng hơn, từ dự đoán cơ hội bán hàng đến tự động hóa quy trình sản xuất. Tuy nhiên, điểm chung là họ đều cần thông tin chi tiết, tin cậy và có thể hành động.

Công cụ truyền thống vẫn đủ mạnh

Những công cụ như Tableau, Qlik, Power BI, SQL, và các thư viện máy học nhẹ trong Python đã đủ để đáp ứng các nhu cầu này. Chúng có thể xử lý dữ liệu có cấu trúc, tạo báo cáo trực quan, và thực hiện các phân tích dự đoán cơ bản. Ví dụ, trong khoa học đời sống, phần mềm thống kê đơn giản có thể phân tích dữ liệu bệnh nhân. Trong bán lẻ, các truy vấn cơ sở dữ liệu cơ bản có thể theo dõi hàng tồn kho và doanh số.

Việc sử dụng LLM cho các tác vụ đơn giản như tính toán giá trị trung bình hoặc phân tích dữ liệu có cấu trúc là không cần thiết và lãng phí tài nguyên. Điều này giống như dùng bazooka (súng chống tăng) để đập ruồi - quá mức cần thiết và không bền vững.

Khi nào LLM thực sự hữu ích?

LLM phát huy tác dụng tốt nhất khi xử lý dữ liệu phức tạp, không có cấu trúc như văn bản, giọng nói và hình ảnh. Ví dụ:

Phân tích tình cảm: Đánh giá cảm xúc của khách hàng từ các bài đánh giá hoặc phản hồi trên mạng xã hội.

Tóm tắt tài liệu: Tóm tắt các báo cáo dài hoặc tài liệu kỹ thuật.

Trích xuất thông tin: Trích xuất dữ liệu từ hồ sơ y tế hoặc nhật ký bảo trì.

Một ví dụ điển hình là trong ngành công nghiệp ô tô. LLM có thể phân tích dữ liệu phi cấu trúc như nhật ký bảo trì, bão dưỡng, bảo hành, ghi chú kỹ thuật viên và báo cáo lỗi, sau đó kết hợp với dữ liệu cảm biến có cấu trúc để cung cấp thông tin chi tiết về dự đoán bảo dưỡng, và cải thiện độ tin cậy của xe.

Cách tiếp cận kết hợp: Tối ưu hóa hiệu quả và tính bền vững

Thay vì sử dụng LLM cho mọi tác vụ, cách tiếp cận kết hợp thường là tốt nhất. Sử dụng các công cụ truyền thống cho dữ liệu có cấu trúc và dành LLM cho những tình huống thực sự phức tạp. Ví dụ, một nhà sản xuất đồ nội thất có thể sử dụng các mô hình thống kê đơn giản để dự đoán doanh số, nhưng kết hợp LLM để phân tích đánh giá của khách hàng và cảm nhận trên mạng xã hội về thương hiệu cũng như các sản phẩm của họ.

Cách tiếp cận này không chỉ tối ưu hóa hiệu quả mà còn giúp giảm thiểu các tác động đến môi trường. Nó đảm bảo rằng các tổ chức sử dụng đúng công cụ cho đúng công việc, tránh lãng phí tài nguyên và năng lượng.

Hướng tới phân tích bền vững

Để đạt được phân tích bền vững, các tổ chức cần: Đầu tư vào nhân lực. Đào tạo các nhà phân tích lành nghề và xây dựng văn hóa hiểu biết về dữ liệu; Quản trị dữ liệu mạnh mẽ. Đảm bảo chất lượng, bảo mật và sử dụng dữ liệu có đạo đức; Lựa chọn công cụ phù hợp: Đánh giá kỹ lưỡng nhu cầu thực tế trước khi áp dụng các giải pháp phức tạp.

Trong cuộc đua giành quyền thống trị AI, chúng ta đừng quên rằng giải pháp đơn giản nhất thường là giải pháp bền vững nhất. Các tổ chức cần đảm bảo rằng các quyết định công nghệ được thúc đẩy bởi nhu cầu kinh doanh và các cân nhắc về tính bền vững, chứ không chỉ là sự cường điệu. Bằng cách áp dụng cách tiếp cận thực dụng và bền vững, chúng ta có thể khai phá tiềm năng thực sự của dữ liệu mà không gây tổn hại đến môi trường.

“
Tài liệu tham khảo:
1. https://www.bloomberg.com/graphics/2024-ai-power-home-appliances/
2. https://www.forbes.com/councils/forbestechcouncil/2024/05/24/how-ai-can-unlock-the-power-of-unstructured-data/
3. https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

Tuấn Trần