Ứng dụng mô hình ngôn ngữ lớn để phân tích sắc thái bài viết hỗ trợ giám sát không gian mạng

An toàn thông tin - Ngày đăng : 09:35, 18/12/2024

Tổng quan về các mô hình ngôn ngữ lớn trong xử lý ngôn ngữ tự nhiên (NLP), đặc biệt nhấn mạnh đến mô hình Transformer và các mô hình phát triển từ nó như BERT, GPT.

An toàn thông tin

Ứng dụng mô hình ngôn ngữ lớn để phân tích sắc thái bài viết hỗ trợ giám sát không gian mạng

TS. Nguyễn Anh Tú, TS. Phạm Thị Huyền, ThS. Ngô Thế Quyền, KS. Lê Văn Phiêu, ThS. Phùng Minh Hiếu, Bộ Tư lệnh 86 • 18/12/2024 09:35

“
Tóm tắt:
- Tổng quan về các mô hình ngôn ngữ lớn trong xử lý ngôn ngữ tự nhiên (NLP), đặc biệt nhấn mạnh đến mô hình
Transformer và các mô hình phát triển từ nó như BERT, GPT.
- Phát triển mô hình Vistral_sentiQ: Tác giả đề xuất mô hình Vistral_sentiQ, được tinh chỉnh từ mô hình Vistral-7B, để
phân tích sắc thái văn bản tiếng Việt.
- Dữ liệu sử dụng: Tập dữ liệu gồm 6.000 bài viết (tích cực, tiêu cực, trung lập) được sử dụng để huấn luyện và kiểm thử mô hình.
- Kiểm tra độ chính xác: Mô hình Vistral_sentiQ đạt độ chính xác 90,04% trên tập kiểm thử, cao hơn so với mô hình
gốc Vistral-7B.
- Kết luận: Mô hình Vistral_sentiQ được áp dụng thành công trong giám sát không gian mạng, chứng minh tính hiệu
quả vượt trội.

Giới thiệu tổng quan về một số mô hình ngôn ngữ lớn trong xử lý ngôn ngữ tự nhiên

Thế giới đã trải qua 4 cuộc Cách mạng công nghiệp (CMCN) gồm: 1) cuộc cách mạng cơ giới hóa từ động cơ hơi nước; 2) cuộc cách mạng cơ khí hóa với sự phát minh ra điện; 3) cuộc cách mạng tự động hóa với sự ra đời của máy tính; 4) và cuộc cách mạng thứ 4 là kết hợp của cuộc cách mạng thứ 3 và các hệ thống không gian mạng.
Cuộc cách mạng lần thứ 4 hiện đang bùng nổ trên toàn thế giới với sự kết hợp của kết nối vạn vật (IoT), trí tuệ nhân tạo (Artificial Intelligence) trên nền tảng dữ liệu lớn, máy tính hiệu năng cao, các thuật toán phát triển.

Trong cuộc Cách mạng 4.0, xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực của khoa học máy tính và AI liên quan đến sự tương tác giữa máy tính và con người trong ngôn ngữ tự nhiên như văn bản, thoại. Mục tiêu của NLP là cho phép các máy tính hiểu ngôn ngữ như con người. Một số ứng dụng của NLP có thể được sử dụng như trợ lý ảo, nhận dạng giọng nói, phân tích sắc thái, tự động tóm tắt văn bản, dự đoán chiều hướng, tìm kiếm thông tin liên quan, dịch máy...

Quá trình nghiên cứu về NLP đã được thực hiện từ những năm 1950. Nhưng do sự giới hạn về khả năng tính toán của các máy tính hiệu năng cao, và dữ liệu lớn, nên lĩnh vực nghiên cứu này đã bị đóng băng một thời gian dài. Cho đến cuối những năm 1980, một cuộc cách mạng trong xử lý ngôn ngữ tự nhiên ra đời dựa trên các thuật toán máy học cho xử lý ngôn ngữ tự nhiên.

Từ những năm 2010, các thuật toán máy học sâu mạng nơ-ron đã trở nên phổ biến trong xử lý ngôn ngữ tự nhiên, cộng với đó là sự tồn tại của dữ liệu lớn hiện nay, các máy tính công suất lớn, từ đó các ứng dụng cho xử lý ngôn ngữ tự nhiên phát triển nhanh chóng không chỉ trong các sản phẩm thương mại và còn phục vụ cho các tổ chức chính phủ, quân đội.

Các mô hình ngôn ngữ lớn (Large Language Model - LLM) gần đây đã chứng minh khả năng rất lớn bao gồm xử lý ngôn ngữ tự nhiên NLP, dịch ngôn ngữ, sinh văn bản, hỏi đáp... Ngoài ra, các mô hình LLM là một phần mới, then chốt của xử lý ngôn ngữ trên máy tính, mà có khả năng hiểu các mẫu ngôn ngữ phức tạp và đưa ra các câu trả lời mạch lạc và phù hợp cho tình huống [1, 2].

Sự tiến bộ đáng kể trong các hệ thống LLM xuất hiện khi kiến trúc Transformer được đưa ra trong nghiên cứu [3]. Mô hình Transformer được xây dựng dựa trên cơ chế tự chú ý, mà cho phép thực hiện song song và hiệu quả sự phụ thuộc trong một dải rộng. Hơn nữa, mô hình Transformer là cơ sở để xây dựng các mô hình khác như mô hình Bidirectional Encoder Representations from Transformers (BERT) của Google, mô hình Generative Pre-trained Transformer (GPT) của OpenAI mà thực hiện xuất sắc các nhiệm vụ trong lĩnh vực ngôn ngữ khác nhau.

Trong nghiên cứu [4], các tác giả đã đưa ra mô hình LlaMA là một bộ các mô hình ngôn ngữ nền tảng từ 7 tỉ (7B) đến 65 tỷ (65B) tham số. Mô hình LlaMA được huấn luyện dựa trên hàng nghìn tỉ tokens đã chỉ ra rằng các mô hình mới nhất có thể được huấn luyện sử dụng các tập dữ liệu có sẵn công khai mà không cần dùng đến các bộ dữ liệu độc quyền và không thể truy cập được. Đặc biệt, mô hình LlaMA-13B vượt trội GPT-3 (175B) ở hầu hết các khía cạnh.

Gần đây, Albert Q. Jiang và các cộng sự [5] đã đề xuất mô hình Mistral 7B - mô hình ngôn ngữ 7 tỉ tham số được thiết kế cho chất lượng và hiệu quả vượt trội. Mô hình Mistral 7B vượt trội so với mô hình mở tốt nhất LlaMA 2 với 13B tham số trên tất cả các khía cạnh được đánh giá và vượt trội so với mô hình LlaMA 1 với 34B tham số về mặt lý thuyết, toán học và tạo mã. Mô hình Mistral 7B đưa ra Sự chú ý truy vấn được nhóm (Grouped-query attention - GQA) cho sự suy luận nhanh hơn, cùng với sự chú ý cửa sổ trượt để xử lý hiệu quả các chuỗi có chiều dài tùy ý với chi phí suy luận được giảm.

Nghiên cứu [6] đã đưa ra mô hình ngôn ngữ lớn cho tiếng Việt - Vistral-7B được phát triển từ mô hình Mistral 7B bằng cách huấn luyện và tinh chỉnh liên tục sử dụng tập dữ liệu đa dạng. Cụ thể, các bước để phát triển mô hình Vistral bao gồm: Mở rộng từ vựng cho mô hình Mistral 7B để hỗ trợ tiếng Việt; Thực hiện việc huấn luyện liên tục mô hình Mistral trên tập dữ liệu đa dạng các văn bản tiếng Việt mà đã được làm sạch và loại bỏ trùng lặp một cách cẩn thận; Thực hiện tinh chỉnh có giám sát cho mô hình sử dụng tập dữ liệu đa dạng với nhiều chủ đề.

Trong bài báo này, chúng tôi đề xuất mô hình ngôn ngữ lớn Vistral_sentiQ được tinh chỉnh dựa trên mô hình Vistral-7B và sử dụng tập dữ liệu tiếng Việt cho bài toán phân tích sắc thái văn bản. Tập dữ liệu được xây dựng có kích thước 3MB gồm 6.000 văn bản được thu thập từ nhiều nguồn, được chia thành 3 tập với các nhãn tích cực, tiêu cực, trung tính.

Xây dựng mô hình ngôn ngữ lớn để phân tích sắc thái văn bản

Cấu hình tham số của mô hình

Kiến trúc của mô hình Vistral_sentiQ dựa trên kiến trúc transformer [3]. Các tham số của mô hình được trình bày trong Bảng 1. Kích thước của tập từ điển được sử dụng là 38369, mà lớn hơn so với tập từ điển của mô hình Mistral 7B, và tương đương với tập từ điển của mô hình gốc Vistral-7B.

Tập dữ liệu

Các tác giả đã xây dựng tập dữ liệu gồm 6.000 bài viết bao gồm 2.000 bài viết được gán nhãn tích cực được thu thập từ các trang MXH của lực lượng BCĐ 35, lực lượng 47; 2.000 bài viết được gán nhãn tiêu cực được thu thập từ các trang MXH của lực lượng nói xấu, bôi nhọ lãnh đạo, xuyên tạc đường lối chủ trương chính sách của Đảng...; và 2.000 bài viết được gán nhãn trung lập là các bài viết đưa tin.

Các bài viết sau khi thu thập, được thực hiện gán nhãn thủ công để đảm bảo tính đúng, sạch của dữ liệu. Ngoài ra, để đảm bảo tính khách quan trong đánh giá sắc thái của các bài viết thu thập được, chúng tôi cũng sử dụng một số công cụ có sẵn, mã nguồn mở mô hình ngôn ngữ lớn như Vistral-7B để đánh giá nhãn sắc thái các bài viết và tham chiếu với gán nhãn thủ công. Từ đó, các bài viết được lọc và gán nhãn cho quá trình huấn luyện đảm bảo tính đúng, sạch.

Hình 1 chỉ ra quy trình xây dựng mô hình phân tích sắc thái văn bản Vistral_sentiQ dựa trên quá trình tinh chỉnh mô hình ngôn ngữ lớn Vistral-7B [6] sử dụng phương pháp LoRA. Quá trình xây dựng mô hình gồm quá trình tinh chỉnh mô hình (Finetuning) Vistral-7B và quá trình dự đoán. Dữ liệu đầu vào của quá trình tinh chỉnh là các dữ liệu văn bản và các nhãn tương ứng với sắc thái phân loại gồm tích cực, tiêu cực và trung lập.

Hình 1. Sơ đồ khối luồng xử lý xây dựng mô hình phân tích sắc thái văn bản Vistral_sentimentQ dựa trên quá trình tinh chỉnh mô hình Vistral sử dụng phương pháp LoRA.

Đầu tiên, dữ liệu thu thập được sẽ trải qua quá trình làm sạch, loại bỏ nhiễu, chuẩn hóa, tách từ, loại bỏ từ vô nghĩa. Đây là bước tiền xử lý dữ liệu. Tiếp theo, dữ liệu của từng văn bản sẽ được chuyển thành dữ liệu dạng ma trận số sử dụng thuật toán Embedding; Quá trình này là trích xuất đặc trưng của dữ liệu.

Sau đó, ta tiến hành gán nhãn cho dữ liệu thuộc một trong 3 nhãn là tích cực, tiêu cực và trung tính. Mô hình Vistral-sentiQ được tinh chỉnh dựa trên mô hình Vistral-7B sử dụng giải pháp LoRA và tập dữ liệu mới đã được trình bày ở trên.

Bước cuối cùng trong quá trình này là đánh giá mô hình phân tích sắc thái Vistral-sentiQ đã được xây dựng bằng cách dự đoán sắc thái cho tập dữ liệu mới sử dụng mô hình đã được tinh chỉnh, qua đó đánh giá độ chính xác của mô hình.

Sau khi đã xây dựng được thuật toán cho mô hình, chúng ta tiến hành kiểm tra độ chính xác của mô hình bằng cách cho mô hình phân tích đánh giá nội dung tập dữ liệu đã được chuẩn bị. Từ kết quả thu được ta có được độ chính xác của mô hình và qua đó có những bước cải thiện thuật toán.

Hình 2 chỉ ra quá trình phân tích đánh giá nội dung cho dữ liệu mới đầu vào sử dụng mô hình đã được huấn luyện. Các dữ liệu đầu vào được thực hiện tiền xử lý và trích xuất đặc trưng dữ liệu, tương tự như bước 1 và 2 trong quá trình tinh chỉnh mô hình. Sau đó, các véc-tơ thuộc tính dữ liệu được đưa vào đầu vào của mô hình Vistral_sentiQ đã tinh chỉnh để đánh giá sắc thái, và đầu ra sẽ là sắc thái tương ứng với nội dung văn bản đầu vào.

Hình 2. Quá trình sử dụng mô hình tinh chỉnh Vistral_sentiQ để phân tích sắc thái cho dữ liệu mới.

3. Đánh giá độ chính xác của mô hình Vistral_sentiQ

Sau khi thử nghiệm với tập kiểm thử gồm 884 mẫu test, kết quả độ chính xác trung bình của mô hình là 90,04% với ma trận confusion matrix thu được như Hình 3. Bảng 2 chỉ ra ví dụ sử dụng mô hình Vistral_sentiQ phân tích sắc thái văn bản, trong đó Instruction bao gồm định nghĩa sắc thái Tích cực, Tiêu cực, Trung lập của bài viết, cùng với yêu cầu phân tích sắc thái và nội dung bài viết. Sau Instruction là kết quả sắc thái của bài viết.

Hình 3. Kết quả ma trận confusion của tập dữ liệu kiểm thử sử dụng mô hình Vistral_sentiQ.

Bảng 2. Ví dụ sử dụng mô hình Vistral_sentiQ phân tích sắc thái văn bản

Bảng 3. So sánh kết quả phân tích sắc thái sử dụng mô hình Vistral-7B và Vistral_sentiQ

4. Kết luận

Trong bài viết, các tác giả đã xây dựng mô hình phân tích sắc thái Vistral_sentiQ cho tiếng Việt gồm nhãn tích cực, tiêu cực và trung tính dựa trên việc tinh chỉnh mô hình Vistral-7B. Kết quả thực nghiệm đã chỉ ra rằng, sau khi được tinh chỉnh mô hình Visral_sentiQ có độ chính xác 90,4% mà cao hơn so với mô hình Vistral-7B với cùng tập dữ liệu. Mô hình này đã được đưa vào sử dụng trong các hệ thống Cthực tế và đã chứng minh được tính hiệu quả trong việc hỗ trợ giám sát không gian mạng.

“
Tài liệu tham khảo:
1. Mohaimenul Azam Khan Raiaan, Md. Saddam Hossain Mukta, Kaniz Fatema, Nur Mohammad Fahad, Sadman Sakib, Most. Marufatul Jannat Mim, Jubaer Ahmad, Mohammed Eunus
Ali, and Sami Axzam, A review on large language models: architectures, applications, taxonomies, open issues and challenges.
2. Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian, A comprehensive overview of large language models, Elsevier, April 11, 2024.
3. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
4. Hugo Touvron and Thibaut Lavril and Gautier Izacard and Xavier Martinet and Marie-Anne Lachaux and Timothe
Lacroix and Baptiste Rozire and Naman Goyal and Eric Hambro and Faisal Azhar and Aurelien Rodriguez and
Armand Joulin and Edouard Grave and Guillaume Lample, LLaMA: open and efficient foundation language models,
27 Feb, 2023.
5. Albert Qiaochu Jiang and Alexandre Sablayrolles and Arthur Mensch and Chris Bamford and Devendra Singh Chaplot and Diego de Las Casas and Florian Bressand and Gianna Lengyel and Guillaume Lample and Lucile Saulnier and L’elio Renard Lavaud and Marie-Anne Lachaux and Pierre Stock and Teven Le Scao and Thibaut Lavril and Thomas Wang and Timothe Lacroix and William El Sayed, Mistral 7B, ArXiv, 2023.
6. https://huggingface.co/Viet-Mistral/Vistral-7B-Chat
7. Minh Thuan Nguyen and Khanh-Tung Tran and Nhu-Van Nguyen and Xuan-Son Vu, ViGPTQA
- State-of-the-Art LLMs for Vietnamese Question Answering: System Overview, Core Models Training, and Evaluations, Conference on Empirical Methods in Natural Language
Processing, 2023.

(Bài đăng ấn phẩm in Tạp chí TT&TT số 9 tháng 9/2024)

TS. Nguyễn Anh Tú, TS. Phạm Thị Huyền, ThS. Ngô Thế Quyền, KS. Lê Văn Phiêu, ThS. Phùng Minh Hiếu, Bộ Tư lệnh 86