Với Công cụ Truy vấn Vectorized Photon, các Phiên bản này hoạt động tốt hơn đáng kể các phiên bản r5a.2xlarge có Bộ xử lý AMD EPYC™ trên khối lượng công việc hỗ trợ quyết định và Đạt được giá trị tốt hơn
Nhiều tổ chức dựa vào Nền tảng Lakehouse của Datab lược để lưu trữ và phân tích dữ liệu, cả hai đều có cấu trúc và phi cấu trúc. Để chạy truy vấn hỗ trợ quyết định của bạn một cách nhanh chóng, điều quan trọng là phải chọn các phiên bản đám mây được hỗ trợ bởi phần cứng mạnh mẽ. Nhưng việc xác định những trường hợp nào đáp ứng tiêu chí này có thể là một thách thức.
Chúng tôi đã tiến hành các thử nghiệm để hỗ trợ các công ty mua các phiên bản đám mây để xử lý khối lượng công việc hỗ trợ quyết định của họ. Cụ thể, chúng tôi đã xem xét chuỗi phiên bản AWS: Các phiên bản R5d được kích hoạt bởi bộ xử lý Intel® Xeon® Có khả năng mở rộng thế hệ thứ 2 và các phiên bản R5a với bộ xử lý AMD EPYC. Chúng tôi đã tạo cụm Datab lược runtime 9.0 của hai loại phiên bản này để chạy khối lượng công việc hỗ trợ quyết định. Trên cụm R5d, chúng tôi sử dụng máy ảo đã kích hoạt công cụ truy vấn vector hóa có tên Photon được thiết kế để cải thiện hiệu suất truy vấn SQL. Tại thời điểm thử nghiệm này, công cụ Photon của Datab lược không được hỗ trợ trên các phiên bản R5a.
Khối lượng công việc hỗ trợ quyết định hoàn thành phiên bản R5d trong thời gian ngắn hơn
Chúng tôi đã thử nghiệm hai phiên bản AWS với điểm chuẩn hỗ trợ quyết định tạo ra điểm số thấp hơn, phản ánh lượng thời gian cần thiết để thực hiện một bộ truy vấn nhất định. Chọn một phiên bản mất ít thời gian hơn có thể giúp công ty của bạn hai cách: đầu tiên, bằng cách nhận thông tin có giá trị sớm hơn và thứ hai, giảm thời gian hoạt động của phiên bản và chi phí liên quan, điều này có thể giúp bạn giảm chi tiêu hơn. Như hình 1 cho thấy, các phiên bản r5d.2xlarge với bộ xử lý Intel Xeon Có thể mở rộng thế hệthứ 2 và truy vấn đã hoàn thành có hỗ trợ Photon trên bộ dữ liệu 1TB trong thời gian ít hơn 74% so với phiên bản r5a.2xlarge với bộ xử lý AMD EPYC đã thực hiện. Với bộ dữ liệu 10TB, thời gian hoàn thành truy vấn của cụm r5d.2xlarge ngắn hơn 76% so với cụm r5a.2xlarge.
Thời gian truy vấn ngắn hơn có thể giúp bạn rút ngắn thời gian như thế nào
Cũng như trường hợp với bất kỳ tài nguyên nào mà công ty của bạn đang đầu tư, việc nhận được giá trị tốt cho đồng đô la của bạn là một ưu tiên. Chúng tôi tính toán chi phí một công ty thực hiện các tình huống thử nghiệm mà chúng tôi đã thảo luận trên trang trước. Chúng tôi đã sử dụng giá mỗi giờ cho mỗi phiên bản, bộ lưu trữ và Datab lược dữ liệu tại thời điểm thử nghiệm cùng với thời gian trong Hình 1 để xác định giá mỗi TB cho cả bốn kịch bản. Như hình 2 cho thấy, một công ty sẽ chi tiêu ít hơn nhiều nếu họ chạy khối lượng công việc hỗ trợ quyết định trên các phiên bản r5d.2xlarge hỗ trợ Photon. Đối với bộ dữ liệu 1TB, cụm r5d.2xlarge được kích hoạt bởi bộ xử lý có khả năng thay đổi Intel® Xeon® thế hệ thứ 2 có thể cung cấp giá/hiệu năng thấp hơn 46% so với cụm r5a.2xlarge với bộ xử lý AMD EPYC đã làm. Đối với bộ dữ liệu 10TB, cụm r5d.2xlarge hỗ trợ Photon sẽ giảm 51% chi phí giá/hiệu năng.
Kết thúc
Chúng tôi đã đo thời gian để hoàn thành một bộ truy vấn Datab lược cho hai kích thước tập dữ liệu khác nhau trên các phiên bản AWS r5d.2xlarge hỗ trợ Photon có bộ xử lý có khả năng thay đổi Intel Xeon thế hệ thứ 2 và các phiên bản r5a.2xlarge với bộ xử lý AMD EPYC. Các phiên bản r5d.2xlarge đã hoàn thành các bộ truy vấn với thời gian ngắn hơn tới 76%. Khi chúng tôi kết hợp những thời gian này với giá theo giờ cho hai phiên bản, chúng tôi thấy rằng phiên bản r5d.2xlarge có chi phí thấp hơn đáng kể để thực hiện cùng một lượng công việc — tiết kiệm chi phí lên đến 51%. Nếu công ty của bạn muốn nhận thông tin chi tiết hữu ích trước đó và giảm chi tiêu cho các phiên bản AWS, hãy chọn các phiên bản r5d.2xlarge hỗ trợ Photon có bộ xử lý có khả năng thay đổi Intel Xeon thế hệ thứ 2.
Tìm hiểu thêm
Để bắt đầu chạy cụm Datab lược dữ liệu của bạn trên các phiên bản Amazon R5d hỗ trợ Photon với bộ xử lý có khả năng thay đổi Intel Xeon thế hệ thứ 2, hãy truy cập https://aws.amazon.com/quickstart/architecture/databricks/.
Để tìm hiểu thêm về Công cụ Truy vấn Vectorized Photon của Datab lược, hãy truy cập https://databricks.com/product/photon và https://docs.databricks.com/runtime/photon.html.
Đối với tất cả các kết quả trong báo cáo này, chúng tôi đã sử dụng khối lượng công việc hỗ trợ quyết định lấy từ TPC-DS. Tất cả các thử nghiệm được tiến hành vào tháng 12 năm 2021 trên khu vực AWS Us-east-1. Tất cả thử nghiệm đều sử dụng các cụm 20 nút với Ubuntu 18.04.1, kernel phiên bản 5.4.0-1059-AWS, Datab lược 9.0, Apache Spark 3.1.2, Scala 2.12. Cả hai loại phiên bản đều có 8 vCKU và RAM 64GB. R5d.2xlarge có SSD NVMe 300GB, BW mạng 10 Gbps và BW bộ lưu trữ 4.750 Mbps. Các phiên bản r5a.2xlarge có ổ đĩa EBS 250GB, BW mạng 10Gbps và BW bộ lưu trữ 2.880 Mbps.