Doanh nghiệp số

Lưu trữ: người hùng thầm lặng của việc triển khai AI

Tuấn Trần 16:25 24/07/2024

Nhiều doanh nghiệp (DN) chỉ tập trung vào sức mạnh tính toán và mạng khi triển khai các dự án trí tuệ nhân tạo (AI). Nhưng họ có thể đang bỏ qua bức tranh toàn cảnh về nhu cầu lưu trữ lớn của mình.

Khi bắt đầu triển khai và sử dụng AI, nhiều DN nhận ra rằng họ sẽ cần truy cập vào sức mạnh điện toán khổng lồ và khả năng kết nối mạng nhanh, nhưng nhu cầu lưu trữ lại có thể bị bỏ qua.

ai_chips_cross_platform_deployment.jpeg
Nhiều DN nhận ra rằng họ sẽ cần truy cập vào sức mạnh điện toán khổng lồ và khả năng kết nối mạng nhanh, nhưng nhu cầu lưu trữ lại có thể bị bỏ qua.

Việc tạo ra một chatbot hay trợ lý AI có thể không ảnh hưởng đến dung lượng lưu trữ của hầu hết các DN, nhưng một số chuyên gia về AI và lưu trữ cho biết, các dự án AI lớn có khả năng truy cập vào hàng triệu điểm dữ liệu có thể cần nhiều terabyte dung lượng lưu trữ mới, có khả năng tiêu tốn hàng chục triệu USD.

Jeffrey Necciai, Giám đốc công nghệ của Duos Technologies, công ty sử dụng AI kết hợp với hình ảnh để kiểm tra các toa tàu khi nó chuyển động, cho biết hiện có một số tùy chọn lưu trữ và đối với một số chức năng AI, lưu trữ đám mây hoặc ổ cứng truyền thống có thể phù hợp.

Nhưng đối với các hệ thống AI cần cung cấp thông tin hoặc phản hồi tức thời, ổ cứng và lưu trữ đám mây cách xa hàng trăm km so với vị trí xử lý khối lượng công việc của AI có thể quá chậm, Necciai và các chuyên gia khác cho biết. Ví dụ, Duos Technologies cung cấp thông báo trên các toa tàu trong vòng 60 giây kể từ khi toa tàu được quét hình ảnh. Trong trường hợp đó, Duos cần bộ lưu trữ siêu nhanh hoạt động cùng với các đơn vị tính toán AI của mình.

"Nếu có một bánh xe bị hỏng, bạn sẽ muốn biết ngay lập tức", ông nói. "Chúng tôi không nhất thiết phải xử lý bất cứ điều gì trên đám mây, vì rõ ràng là chúng tôi không muốn có độ trễ. Chúng tôi cần đưa thông tin đó ra ngoài càng nhanh càng tốt".

Không chỉ là kích thước của ổ đĩa

Necciai cho biết các DN đang xem xét triển khai các dự án AI lớn cần lưu ý đến cả dung lượng lưu trữ cần thiết và khả năng xử lý nhiều tác vụ cùng lúc của bộ lưu trữ đó.

"Chúng tôi cần ghi vào bộ lưu trữ cùng lúc cho nhiều luồng, và chúng tôi cần đọc từ bộ lưu trữ những dữ liệu cho nhiều luồng một cách nhanh chóng. Khả năng thực hiện nhiều công việc cùng một lúc với bộ lưu trữ rất quan trọng đối với chúng tôi", Necciai nói thêm.

Năm ngoái, Duos đã quét dữ liệu của 8,5 triệu toa tàu, mỗi lần quét tạo ra hơn 1.050 hình ảnh. Cổng thông tin kiểm tra toa tàu của Duos sử dụng bốn mảng lưu trữ hiệu suất cao, mỗi mảng chứa 16 ổ NVMe, với tổng dung lượng khoảng 500 terabyte.

Công ty cũng sử dụng khoảng hơn 25 terabyte dung lượng lưu trữ truyền thống để đào tạo và phát triển AI tại chỗ.

Nhu cầu dữ liệu lớn

Giống như Duos, một số DN khác đang thực hiện các dự án AI lớn đang chuyển sang sử dụng ổ SSD dung lượng cao hoặc bộ nhớ flash NAND cho nhu cầu lưu trữ của họ. Các tùy chọn bộ nhớ tốc độ cao có chi phí lớn hơn đáng kể so với ổ cứng nhưng chúng mang lại những lợi thế khác. Ví dụ, chúng có thể tiết kiệm điện năng gần gấp ba lần và chiếm ít không gian hơn so với giá đỡ máy chủ và ổ cứng, Roger Corell, giám đốc cấp cao về tiếp thị tại nhà sản xuất SSD DN Solidigm cho biết.

Ông cho biết khi các DN áp dụng các dự án AI đa phương thức phức tạp hơn và ngày càng nhiều nhân viên bắt đầu sử dụng các công cụ AI, nhu cầu về các tùy chọn lưu trữ đa luồng, dung lượng cao sẽ tăng lên.

Corell nói thêm: “AI rất mạnh mẽ về mặt lượng dữ liệu cần lưu trữ và tốc độ truy cập vào các tập dữ liệu khổng lồ này”.

Hơn nữa, ngoài các tùy chọn SSD hoặc NAND, một số công ty đang sử dụng đám mây riêng hoặc cơ sở lưu trữ đồng vị trí cho nhu cầu lưu trữ của họ, theo Ugur Tigli, Giám đốc công nghệ tại MinIO - một kho lưu trữ cho các dự án AI và học máy.

Ông cho biết, khách hàng của MinIO áp dụng AI thường tăng dung lượng lưu trữ của họ lên từ bốn đến 10 lần, và khuyến khích người dùng AI quy mô lớn tìm kiếm ngoài đám mây công cộng để đáp ứng nhu cầu lưu trữ của họ vì chi phí sử dụng đám mây riêng hoặc dịch vụ đồng định vị có thể thấp hơn 60% so với đám mây công cộng.

"Tổng chi phí sẽ lên tới hàng chục đến hàng trăm triệu USD mỗi năm tùy thuộc vào dung lượng, phân tầng và hồ sơ truy cập dữ liệu", Ugur Tigli cho biết.

Lưu trữ như một nền tảng

Một lựa chọn khác liên quan đến các nền tảng lưu trữ quy mô petabyte, Priyanka Karan, giám đốc công nghệ tại công ty chuyển đổi số AHEAD cho biết thêm. Các nền tảng lưu trữ quy mô petabyte "nhằm mục đích giảm thiểu những thách thức về chuyển đổi dữ liệu khi đưa dữ liệu từ nơi ban đầu đến nơi có thể được sử dụng để đào tạo AI", bà nói.

Bà cho biết, một số nền tảng lưu trữ hiện có được xây dựng dựa trên bộ nhớ flash NAND, cung cấp thông lượng cao và độ trễ thấp, rất cần thiết để cung cấp dữ liệu cho GPU (xử lý đồ hoạ) và TPU (những bộ xử lý được xây dựng tùy chỉnh mạnh để chạy project được thực hiện trên một khuôn khổ cụ thể).

Với nhiều lựa chọn hiện có, một số người dùng và chuyên gia AI cho biết dung lượng và loại lưu trữ cần thiết phụ thuộc vào dự án AI mà tổ chức đang triển khai.

Karan cho biết, xử lý hàng loạt dữ liệu ngoại tuyến có yêu cầu bộ nhớ thấp hơn so với khối lượng công việc chạy theo thời gian thực. Trong một số trường hợp, các tùy chọn lưu trữ thứ cấp có thể được sử dụng để lưu trữ lượng lớn dữ liệu cần thiết cho việc đào tạo và chạy các mô hình AI, bà nói thêm.

Việc lựa chọn tùy chọn lưu trữ phù hợp cũng phụ thuộc vào trọng lực dữ liệu thường được đề cập — kích thước của tập dữ liệu, liệu có thể di chuyển dữ liệu lên đám mây để xử lý hay liệu có hợp lý khi đưa dữ liệu vào xử lý hay không. Trong một số dự án AI, lưu trữ dữ liệu được đặt cùng vị trí trong một trung tâm dữ liệu với máy tính AI, trong một đám mây công cộng khác hoặc ở ngoại biên nơi dữ liệu được tạo ra.

Ngoài ra còn nhiều yếu tố khác DN cần cân nhắc, bao gồm bảo mật và các thách thức về quy định hoặc tuân thủ. Ngoài chi phí lưu trữ, có thể có phí chuyển dữ liệu, phí truy cập và phí quản lý cho lưu trữ bên ngoài. Mặt khác, các tùy chọn lưu trữ tại chỗ có thể còn liên quan đến các khoản đầu tư ban đầu lớn, cũng như bảo trì, điện và làm mát, và lương nhân viên...

Karan cho biết: “Các tổ chức phải đánh giá nhu cầu cụ thể của mình, bao gồm hiệu suất, chi phí và khả năng mở rộng, để lựa chọn giải pháp tốt nhất cho các sáng kiến ​​AI của mình”./.

Bài liên quan
Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Lưu trữ: người hùng thầm lặng của việc triển khai AI
POWERED BY ONECMS - A PRODUCT OF NEKO