Tại sao cần một hệ thống cơ sở hạ tầng hiện đại để tăng tốc khối lượng công việc AI và học máy

Gia Bảo| 13/08/2019 15:56
Theo dõi ICTVietnam trên

Bài viết từ WekaIO nhấn mạnh nguyên nhân tại sao việc tập trung vào tối ưu hóa cơ sở hạ tầng có thể thúc đẩy khối lượng công việc học máy và sự thành công của trí tuệ nhân tạo.

Kết quả hình ảnh cho Why You Need a Modern Infrastructure to Accelerate AI and ML Workloads

Những năm gần đây, thế giới đã chứng kiến ​​sự bùng nổ trong việc tạo ra dữ liệu từ nhiều nguồn khác nhau: các thiết bị được kết nối, IoT, phân tích, chăm sóc sức khỏe, điện thoại thông minh, và nhiều nguồn khác. Trên thực tế, tính đến năm 2016, 90% tất cả dữ liệu từng được tạo ra đã được tạo ra trong hai năm trước. Nhận được thông tin chuyên sâu từ tất cả các dữ liệu này mang đến cơ hội to lớn cho các tổ chức để tiếp tục kinh doanh, mở rộng nhanh hơn sang các thị trường mới, để tiến hành nghiên cứu về chăm sóc sức khỏe hoặc khí hậu và hàng loạt những lĩnh vực khác. Tuy nhiên, có thể cảm nhận được sự cấp thiết của việc quản lý lượng dữ liệu khổng lồ, cùng với nhu cầu ngày càng nhanh chóng trong việc gặt hái những hiểu biết sâu sắc từ nó. Theo Gartner, các tổ chức đã báo cáo tăng trưởng dữ liệu phi cấu trúc hơn 50% so với năm trước, đồng thời một cuộc khảo sát của Accdvisor cho thấy 79% giám đốc điều hành doanh nghiệp đồng ý rằng việc không trích xuất giá trị và hiểu biết sâu sắc từ dữ liệu này sẽ dẫn đến sự thất bị của các doanh nghiệp. Vấn đề quản lý dữ liệu này đặc biệt quan trọng trong lĩnh vực trí tuệ nhân tạo và khối lượng công việc học máy, khi cả hai lĩnh vực này đều yêu cầu các kỹ năng công nghệ thông tin và nhu cầu lưu trữ lượng dữ liệu khổng lồ sẽ được phân tích dưới một dạng nào đó.

Những kho lưu trữ kế thừa không thể đáp ứng nhu cầu hiện tại

Sự tăng trưởng của dữ liệu khiến các tổ chức công nghệ thông tin chịu áp lực rất lớn, để có thể luôn phản ứng với các doanh nghiệp của họ. Để đối phó với sự tăng trưởng của dữ liệu phi cấu trúc này, nhiều tổ chức đã chuyển sang sử dụng các hệ thống lưu trữ mở rộng, nơi có thể mở rộng dung lượng bằng cách thêm các thiết bị được kết nối mới. Tuy nhiên, các tổ chức vẫn chưa giải quyết được thách thức về hiệu suất để đối phó với sự tăng trưởng và truy cập của dữ liệu đó một cách nhanh chóng. Gartner cũng tuyên bố rằng vào năm 2022, hơn 80% dữ liệu doanh nghiệp sẽ được lưu trữ trong các hệ thống lưu trữ mở rộng, trong các trung tâm dữ liệu đám mây và doanh nghiệp, tăng từ tỷ lệ 40% vào năm 2018. Tuy nhiên, những kho lưu trữ kế thừa được thiết kế để giải quyết các vấn đề của quá khứ, và không thể xử lý những vấn đề không lường trước khi phải đối phó với khối lượng công việc mới hiện nay. Chúng không thể cung cấp dữ liệu vào trung tâm tính toán đủ nhanh, dẫn đến lãng phí thời gian tính toán cho những CPU hoặc GPU đắt tiền, cũng không thể mở rộng quy mô thành petabyte khi nói đến hiệu suất. Vấn đề quản lý siêu dữ liệu cũng trở thành một vấn đề khi xử lý hàng tỷ tệp trong một tập dữ liệu.

Vấn đề này thường được gọi là hiệu suất doanh nghiệp. Để theo kịp sự gia tăng mạnh mẽ về hiệu suất và yêu cầu năng lực, các tổ chức phải đầu tư mạnh hơn vào cơ sở hạ tầng - tăng chi tiêu vốn cũng như sự phức tạp trong vấn đề quản lý.

Các kiến ​​trúc sư lưu trữ và dữ liệu phải đối mặt với ba thách thức chính trong việc phục vụ các yêu cầu mới này:

Điều khiển trung tâm dữ liệu linh hoạt

Như đã đề cập, sự kết hợp giữa quy mô ngày càng tăng của dữ liệu và nhu cầu ngày càng cấp bách của các tổ chức trong việc hiểu rõ hơn về dữ liệu, tạo ra những thách thức trong việc lưu trữ, bảo vệ và xử lý dữ liệu. Kho lưu trữ kế thừa thiếu chức năng quản lý và hiệu suất để giữ cho dữ liệu luôn có sẵn và có thể chia sẻ giữa các khối lượng công việc chính. Trong các kịch bản này, dữ liệu có xu hướng được lưu trữ trong các đảo hoặc silo, khiến cho việc sử dụng các công việc máy học hiện đại (Machine learning) trở nên rất tốn kém và mất thời gian.

Tăng tốc chuyển đổi dữ liệu cho khối lượng công việc trí tuệ nhân tạo và học máy

Khối lượng công việc phân tích hiện đại - cụ thể là học máy và học sâu - đã chuyển đổi cách sử dụng dữ liệu trong các tổ chức. Các khối lượng công việc mới này đòi hỏi các tập dữ liệu cực lớn, cần khả năng truy cập nhanh hơn và trực tiếp hơn vào dữ liệu đó, và các thuật toán để mở đường cho việc học tập.

Tuy nhiên, các giải pháp lưu trữ kế thừa không thể tận dụng các mạng băng thông cao cấp hiện nay, vì vậy các tổ chức đã chuyển sang các hệ thống tệp song song, cung cấp cấu hình hiệu suất cao hơn nhiều và hỗ trợ nhiều loại dữ liệu. Hệ thống này có thể giúp hợp lý hóa quá trình chuẩn bị dữ liệu để sử dụng trong trí tuệ nhân tạo và học máy.

Tối ưu hóa đầu tư vào cơ sở hạ tầng

Cuối cùng, liên quan đến hiệu suất của doanh nghiệp, các tổ chức muốn tối ưu hóa khoản đầu tư của họ vào cơ sở hạ tầng GPU và / hoặc CPU có giá trị cao, thường được yêu cầu trong khối lượng công việc trí tuệ nhân tạo và học máy. Việc các tài nguyên này không hoạt động hoặc không được sử dụng đúng mức sẽ mang lại tác động thực sự nếu cơ sở hạ tầng lưu trữ bên dưới không thể giữ dữ liệu được đưa vào chúng.

Các giải pháp lưu trữ mới sẽ có thể loại bỏ nút thắt cổ chai I/O này, tận dụng mạng hiệu suất cao hơn (chẳng hạn như 100GbE hoặc InfiniBand). Điều này sẽ giúp các tổ chức tránh được các khoản đầu tư lớn vào cơ sở hạ tầng và giảm độ trễ của mình.

WekaIO có thể giúp giải quyết các vấn đề lớn

WekaIO đã tạo được dấu ấn với cách tiếp cận mới về lưu trữ, giúp giải quyết những vấn đề không lường trước được về khối lượng công việc đòi hỏi nhiều dữ liệu và hiệu suất. Hệ thống tệp Weka là một giải pháp lưu trữ mở rộng dựa trên phần mềm, được tối ưu hóa cho khối lượng công việc hiệu suất cao như trí tuệ nhân tạo, học máy và phân tích.

Weka cung cấp sự đơn giản của hệ thống lưu trữ kế thừa, nhưng nó mang lại hiệu suất cao hơn nhiều - lưu trữ flash, khả năng mở rộng đám mây và quản lý đơn giản hóa, những khả năng không bao giờ được hình dung bởi các nhà cung cấp sản phẩm khác. Trong môi trường sản xuất, WekaIO đã cho thấy hiệu suất của hệ thống NAS truyền thống tăng gấp 10 lần với quy mô tuyến tính khi cơ sở hạ tầng phát triển.

Cách thức hoạt động của Weka

Weka đã xây dựng một nền tảng phần mềm hiệu suất cao phân tán, có thể mở rộng, kết nối nhiều máy chủ với các ổ đĩa trạng thái rắn, gắn liền cục bộ vào một không gian toàn cầu tuân thủ POSIX để quản lý hiệu suất và đơn giản hóa. POSIX là giao diện hệ điều hành di động, là một tiêu chuẩn của IEEE giúp tương thích tính di động giữa các hệ điều hành. Về mặt lý thuyết, mã nguồn tuân thủ POSIX phải là di động liền mạch. Phần mềm được triển khai trên các máy chủ thương mại tiêu chuẩn, cung cấp tính độc lập phần cứng với chi phí tốt nhất. Phần mềm hỗ trợ phân tầng nội bộ cho bất kỳ giải pháp lưu trữ đối tượng S3 có sẵn trên thị trường, mang lại khả năng mở rộng lớn và tính kinh tế tuyệt vời cho một danh mục dữ liệu ngày càng phát triển. Biểu đồ dưới đây cung cấp một cái nhìn tổng quan về kiến ​​trúc của một triển khai điển hình cho môi trường học tập sâu.

machine learning workloads

Ngày nay, khối lượng công việc hiệu suất cao đòi hỏi một cơ sở hạ tầng lưu trữ hiện đại, mang lại hiệu suất, khả năng quản lý, khả năng mở rộng và hiệu quả chi phí. Tất cả là những yêu cầu thiết yếu trong kỷ nguyên chuyển đổi dữ liệu. Hệ thống lưu trữ kế thừa, chẳng hạn như NAS và các hệ thống tệp song song được thiết kế trong kỷ nguyên đĩa, chỉ đơn giản là không đáp ứng được những yêu cầu ngày càng gia tăng.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Tại sao cần một hệ thống cơ sở hạ tầng hiện đại để tăng tốc khối lượng công việc AI và học máy
POWERED BY ONECMS - A PRODUCT OF NEKO