Quy trình làm việc khoa học dữ liệu chính

Các máy trạm được thiết kế đặc biệt này kết hợp khoảng bộ nhớ lớn, nhiều khe mở rộng để kết nối nhiều thiết bị và CPU được lựa chọn riêng được thiết kế để đáp ứng nhu cầu độc đáo của các nhà khoa học dữ liệu và nhà phân tích dữ liệu dựa trên Python như bạn.

Các câu hỏi thường gặp

Có hai yếu tố chính cần xem xét khi chọn máy trạm khoa học dữ liệu: công cụ và kỹ thuật nào bạn sử dụng nhiều nhất và dung lượng bộ dữ liệu của mình.

Khi nói đến các khung khoa học dữ liệu, số lượng lõi cao hơn không phải lúc nào cũng dịch thành hiệu suất tốt hơn. NumPy, SciPy và sc vẹt-learn không mở rộng quy mô vượt quá 18 lõi. Mặt khác, HEAVY. AI (trước đây là OmniSci) sẽ lấy tất cả các lõi mà nó có thể có được.

Tất cả các máy trạm khoa học dữ liệu Intel-based đều sử dụng các bộ xử lý Intel® Core™, Intel® Xeon® W và Intel® Xeon® có khả năng mở rộng vượt trội so với khối lượng công việc khoa học dữ liệu trong các bài kiểm tra trong thế giới thực. Bạn sẽ nhận được hiệu năng tốt nhất trong dòng bộ xử lý từ tất cả các sản phẩm này, điều này khiến dung lượng bộ nhớ trở thành lựa chọn quan trọng nhất của bạn.

Các khung khoa học dữ liệu giúp dấu chân bộ nhớ bong bóng hai đến ba lần. Để có được nhu cầu bộ nhớ cơ bản của bạn, hãy kiểm tra các tập dữ liệu điển hình của bạn và nhiều phần ba. Nếu bạn có thể làm việc với 512 GB hoặc ít hơn, bạn có thể có hiệu suất tuyệt vời trong máy tính để bàn. Nếu bộ dữ liệu của bạn ở trên 500 GB, bạn sẽ cần một cặp có bộ nhớ từ 1,5 TB trở lên.

Bộ tăng tốc GPU tỏa sáng ở chương trình đào tạo mô hình học sâu và suy luận học sâu quy mô lớn. Tuy nhiên, đối với phần lớn công việc khoa học dữ liệu — chuẩn bị dữ liệu, phân tích và học máy cổ điển— những GPU đó không hoạt động vì hầu hết các thư viện Python dành cho khoa học dữ liệu chạy nguyên bản trên CPU. Bạn cần một bộ điều hợp đồ họa để điều khiển màn hình của mình, nhưng không cần một thiết bị GPU.

Đám mây sẽ không cung cấp cho bạn hiệu suất tốt nhất trừ khi bạn đang chạy trên máy ảo chuyên dụng hoặc máy chủ bare metal. Các phiên bản đám mây thể hiện mình như một nút duy nhất, nhưng ở phía sau, mọi thứ phân tán cao. Khối lượng công việc và dữ liệu của bạn được phân chia trên nhiều máy chủ ở nhiều vị trí. Điều này tạo ra độ trễ xử lý và bộ nhớ làm giảm thời gian chạy. Ngoài ra, làm việc với các bộ dữ liệu và đồ thị lớn thông qua một máy tính để bàn từ xa không phải là một trải nghiệm lý tưởng.

Giữ cho khối lượng công việc và dữ liệu cục bộ trên một máy duy nhất, có thể mang lại hiệu suất tốt hơn nhiều và trải nghiệm làm việc linh hoạt và nhanh nhạy hơn.

Bạn có thể, nhưng bạn sẽ đốt cháy một lượng thời gian lớn để xem dữ liệu phân tán giữa bộ lưu trữ, bộ nhớ và CPU. Nếu bạn đang làm việc trong môi trường chuyên nghiệp, việc nâng cấp lên máy tính xách tay khoa học dữ liệu hoặc máy tính để bàn tầm trung của Intel® có thể giúp tiết kiệm thời gian. Chúng tôi đã cố tình thử nghiệm và xác định Intel® Core™ máy tính xách tay khoa học dữ liệu dựa trên dữ liệu để sinh viên, người mới bắt đầu và các nhà sản xuất AI có thể có một lựa chọn hợp lý để phát triển và thử nghiệm với các công cụ AI nguồn mở.

Bạn có thể chạy công cụ khoa học dữ liệu dựa trên Python nhanh hơn trên một máy tính tiêu chuẩn bằng cách sử dụng các thư viện và phân phối được Intel tối ưu hóa. Tất cả chúng đều là một phần của bộ dụng cụ Intel AI miễn phí.

Nội dung gốc bằng tiếng Anh trên trang này vừa do con người vừa do máy dịch. Nội dung này chỉ để cung cấp thông tin chung và giúp quý vị thuận tiện. Quý vị không nên tin đây là thông tin hoàn chỉnh hoặc chính xác. Nếu có bất kỳ mâu thuẫn nào giữa bản tiếng Anh và bản dịch của trang này, thì bản tiếng Anh sẽ chi phối và kiểm soát. Xem phiên bản tiếng Anh của trang này.