Tóm tắt về Ban điều hành
LLT và các ứng dụng nhạy cảm về thời gian khác là các trường hợp sử dụng lý tưởng để tăng tốc FPGA. Để đáp ứng thị trường này, Flyslice Technologies đã phát triển thẻ tăng tốc dựa trên FPGA FA728Q. Nền tảng tăng tốc FA728Q cung cấp tài nguyên FPGA mạnh mẽ, dung lượng lưu trữ phong phú và giao diện dễ sử dụng cho người dùng cuối. Để đẩy nhanh, đơn giản hóa và chuẩn hóa quá trình phát triển bo mạch tăng tốc của mình, Flyslice Technologies đã sử dụng cơ sở hạ tầng OFS để có phương pháp mạnh mẽ cho quá trình phát triển nhanh chóng các giải pháp FPGA sử dụng cách tiếp cận "lấy và điều chỉnh". Sử dụng cơ sở hạ tầng OFS, Flyslice Technologies tích hợp công cụ giảm tải TCP/IP của mình vào FIM cơ sở nguồn mở, thường được gọi là "vỏ" FPGA.
Nền tảng và thách thức
LLT là phương pháp hiện đại để thực hiện các giao dịch chứng khoán tài chính bằng hình thức điện tử với thời gian trễ tối thiểu giữa lúc nhập lệnh và thực hiện lệnh. Các ngân hàng đầu tư lớn, quỹ đầu tư và các tổ chức tài chính khác thường sử dụng phương pháp này. Trước đây, các giao dịch được thực hiện thủ công thay vì điện tử và quá trình thực hiện các giao dịch có thể kéo dài từ vài giây đến vài phút. Tuy nhiên, với những tiến bộ về công nghệ trong phần cứng và phần mềm tương ứng, các hệ thống có thể được lập trình để tự động đưa ra quyết định mua hoặc bán dựa trên các tín hiệu và chuyển động nhất định của thị trường, giảm thời gian thực hiện giao dịch xuống còn mili giây. Với sự phổ biến ngày càng tăng của các sản phẩm tăng tốc dựa trên FPGA trong những năm gần đây, thời gian giao dịch được rút ngắn hơn nữa xuống còn micro giây hoặc dưới micro giây.
Đồng thời, các hệ thống LLT ngày càng phụ thuộc vào các mô hình thuật toán giao dịch phức tạp dành riêng cho từng chiến lược giao dịch cụ thể của công ty giao dịch khi tương tác sổ lệnh. Các giải pháp cần có bộ xử lý đa năng và điện toán đồng xử lý chuyên dụng để đáp ứng các yêu cầu về năng lượng và hiệu năng của các công ty giao dịch, chẳng hạn như trong điện toán không đồng nhất. FPGA thích hợp để triển khai các thuật toán giao dịch điều chỉnh. Tuy nhiên, việc lập trình thiết bị tăng tốc phần cứng này có thể tốn thời gian và khó di chuyển khi các dòng FPGA được cải tiến và phát triển.
Flyslice Technologies, một công ty có trụ sở tại Trung Quốc, đang tích cực giải quyết nhu cầu về tăng tốc không đồng nhất trung tâm dữ liệu và điện toán hiệu năng cao, bao gồm phân khúc LLT. Họ đưa ra thị trường các nền tảng gia tốc phần cứng dựa trên FPGA, các chức năng sở hữu trí tuệ (IP) tăng tốc FPGA và các dịch vụ thiết kế nền tảng dựa trên FPGA.
Giải pháp
Để đáp ứng các yêu cầu về độ trễ thấp, chuẩn hóa và khả năng di động của các ứng dụng LLT, Flyslice Technologies đã phát triển thẻ tăng tốc FA728Q, giúp khởi tạo một công cụ giảm tải TCP/IP tích hợp. Để làm được điều này, Flyslice Technologies đã sửa đổi FIM cơ sở được cung cấp trong bản phát hành OFS nguồn mở. Nhờ cấu trúc có thể phân tách và cách tiếp cận "lấy và điều chỉnh", OFS cho phép họ chỉ cần chuyển thuật toán của mình sang thẻ tăng tốc FA728Q trong khi vẫn tận dụng được phần còn lại của cơ sở hạ tầng được cung cấp, bao gồm trình điều khiển và thư viện phần mềm OFS, chỉ cần thực hiện các sửa đổi tối thiểu.
OFS là cơ sở hạ tầng phần cứng và phần mềm nguồn mở cung cấp tất cả các thành phần thiết kế, phần mềm và cơ sở hạ tầng chính cần thiết để bắt đầu phát triển bo mạch hoặc khối lượng công việc dựa trên FPGA tùy chỉnh. Cơ sở hạ tầng OFS bao gồm FIM, thường được gọi là "vỏ" và vùng Đơn vị Chức năng Gia tốc (AFU), một vùng được chỉ định để phát triển khối lượng công việc. Bằng cách sử dụng OFS, các nhà phát triển bo mạch FPGA – hay FIM – có thể tận dụng cơ sở hạ tầng nguồn mở – hoặc FIM cơ sở – để nhanh chóng phát triển một FIM tùy chỉnh, phù hợp cho bo mạch của họ dựa trên ứng dụng hoặc ngành mục tiêu. OFS cũng xuất xưởng kèm với Gói Hỗ trợ Gia tốc oneAPI (ASP), có thể được tận dụng để tóm tắt quy trình thiết kế và phần cứng FPGA. OFS tiết kiệm thời gian cho nhà phát triển, tăng khả năng di động trên các thế hệ FPGA, sử dụng các giao diện tiêu chuẩn trong ngành và cung cấp quy trình thiết kế cao cấp tùy chọn sử dụng oneAPI.
Thẻ tăng tốc FA728Q hiện đã có mặt trên thị trường và là bo mạch tăng tốc FPGA dựa trên PCIe cung cấp dung lượng bộ nhớ DDR4 trên bo mạch 32 GB và ba ổ cắm QSFP28 để hỗ trợ lên tới 100 GbE cho mỗi giao diện. Thẻ tăng tốc FA728Q cũng được kích hoạt oneAPI thông qua cơ sở hạ tầng OFS, nhờ đó khách hàng có thể triển khai các hạt nhân của họ trong RTL hoặc di chuyển các thuật toán từ CPU/GPU sang ngôn ngữ thiết kế cao cấp hơn, bao gồm C/C++. Bộ công cụ cơ sở Intel oneAPI cũng giúp tổng hợp và tối ưu hóa hạt nhân cho tài nguyên FPGA, nhờ đó rút ngắn hơn nữa thời gian đưa sản phẩm ra thị trường.
Flyslice Technologies cũng đã bắt đầu phát triển các bo mạch dựa trên FPGA Intel Agilex®, bao gồm thẻ FA927S sử dụng FPGA Intel Agilex 7 chuỗi I và thẻ FA925E sử dụng FPGA Intel Agilex 7 chuỗi F.
Thẻ FA927S có tốc độ thu phát cao lên đến 116 Gbps, PCIe 5.0 x16 và hỗ trợ Compute Express Link (CXL). Sản phẩm này nhắm đến các ứng dụng đòi hỏi nhiều băng thông và hiện đã có mặt trên thị trường để hỗ trợ phát triển RTL. Thẻ FA927S sẽ hỗ trợ OFS trong quý đầu tiên của năm 2024.
Tuy nhiên, thẻ FA925E lại cung cấp bốn dải DDR4 8 GB và bốn dải 4 GB, như vậy tổng dung lượng trên bo mạch là 48 GB. Sản phẩm được thiết kế cho các ứng dụng có yêu cầu dung lượng bộ nhớ ngoài và băng thông cao. Thẻ này hỗ trợ đầy đủ OFS và sẽ ra mắt vào cuối năm 2023. Xem Bảng 1. để so sánh ba thẻ tăng tốc.
Bảng 1. Bảng So Sánh
Công suất tối đa | 215 W | 200 W | 150 W |
Yêu cầu Làm mát | Chủ động/thụ động (tùy chọn) | Chủ động/thụ động (tùy chọn) | Chủ động/thụ động (tùy chọn) |
Hệ số hình dạng | PCIe khe cắm kép, chiều cao đầy đủ, chiều dài 3/4 | PCIe khe cắm kép, chiều cao đầy đủ, chiều dài một nửa | PCIe khe cắm kép, chiều cao đầy đủ, chiều dài 3/4 |
Giao diện Mạng | Ba cổng QSFP28: 3 x 100 GbE / 40 GbE | Cổng QSFP28 kép: 2 x 100 GbE / 40 GbE | Cổng QSFP28 kép 2 x 100 GbE / 40 GbE |
Giao diện bộ nhớ | 4 x 8 GB DDR4, 2.400 MHz với ECC | 4 x 8 GB DDR4, 2.400 MHz với ECC | 4 x 8 GB và 4 x 4 GB DDR4, 2.400 MHz với ECC |
Giao diện PCIe | - | 5.0 x16 | - |
Giao diện Mở rộng | - | 2 đầu nối SAS mỏng x8 cho tiện ích mở rộng PCIe 4.0 | - |
Cổng Quản lý | Micro-USB | Micro-USB | Micro-USB |
Thiết bị FPGA | 1SX280HN2F43E2VG | AGIB027R29A1E2VR3 | AGFB027R25A2E2V |
Kết quả
Chức năng IP công cụ giảm tải được Flyslice Technologies triển khai trên thẻ FA728Q được tối ưu hóa cho độ trễ và hiệu năng để đáp ứng các yêu cầu LLT. Ở chế độ tăng tốc, độ trễ truyền TCP là dưới 100 ns, đảm bảo các kết nối ổn định và độ trễ thấp cho các ứng dụng mạng quan trọng về thời gian. Bảng 2. cho thấy độ trễ đo được với các kết nối khác nhau. Bảng 3. cho thấy các giao diện PCIe 3.0 x16 và DDR băng thông cao.
Thông số kỹ thuật | Giá trị |
---|---|
Kết nối TCP/UDP tối đa | 63 với TCP, 63 với UDP |
Độ trễ TCP TX (chế độ tăng tốc) | 15 xung nhịp |
Độ trễ TCP TX (chế độ không tăng tốc) | 46 xung nhịp |
Độ trễ TCP RX | 32 xung nhịp |
Độ trễ UDP TX | 42 xung nhịp với gói 512 byte, 18 xung nhịp với gói 128 byte |
Độ trễ UDP RX | 23 xung nhịp |
Độ trễ vòng lặp với hạt nhân oneAPI | 18 xung nhịp |
Bảng 2. Thông số kỹ thuật Công cụ giảm tải TCP/IP (TOE)
Lưu ý:
1. Một khoảng xung nhịp là 6,4 ns
2. Độ trễ TX được tính từ biên giảm dần của gói EOP đến dữ liệu hợp lệ trong XGMII TXC
3. Độ trễ RX được tính từ SOP gói đến dữ liệu hợp lệ trong XGMII RXC
Đường dẫn Dữ liệu | Băng thông |
---|---|
Bộ nhớ ghi máy chủ | 8.287,68 MBps cho khối 8.192-KB |
Bộ nhớ đọc máy chủ | 8.241,19 MBps cho khối 8.192-KB |
Bộ nhớ ghi hạt nhân | 16.909,6 MBps cho khối 4.096-MB |
Bộ nhớ đọc hạt nhân | 17.340,3 MBps cho khối 4.096-MB |
Bảng 3. Băng thông được cung cấp bởi mỗi giao diện
OFS đã giúp chúng tôi xây dựng một nền tảng tăng tốc cần thiết một cách dễ dàng và nhanh chóng cho khách hàng, từ trình điều khiển API phần mềm cho đến phần cứng cơ bản dưới dạng một bộ thiết bị đầy đủ.
Cách bắt đầu tăng tốc FPGA bằng OFS
Các nhà phát triển FPGA có thể tận dụng thẻ tăng tốc FA728Q và bo mạch hỗ trợ OFS, sử dụng tài liệu nguồn mở và mã nguồn để bắt đầu xây dựng khối lượng công việc tùy chỉnh của mình.
Bảng sau đây tóm tắt cách mà nhà phát triển có thể tạo khối lượng công việc dựa trên FPGA bằng bo mạch tăng tốc của Flyslice Technologies.
Tận dụng Tăng tốc FPGA cho khối lượng công việc của bạn | |
---|---|
Bước 1: Chọn một bo mạch | Xem bo mạch hỗ trợ OFS của Flyslice Technologies, thẻ tăng tốc FA728Q |
Bước 2: Đánh giá tài nguyên nguồn mở OFS |
Flyslice Technologies sẽ cung cấp phiên bản tài liệu kỹ thuật OFS tương ứng. |
Bước 3: Truy cập mã phần cứng và phần mềm nguồn mở |
Flyslice Technologies sẽ cung cấp mã phần cứng và phần mềm OFS tương ứng. Đây là bản phân phối cụ thể của họ về mã cơ sở OFS do Intel cung cấp. |
Bước 4: Phát triển khối lượng công việc bằng RTL hoặc C/C++ (sử dụng oneAPI) |
Tuân theo luồng OFS RTL HOẶC OFS cho phép biên dịch hạt nhân oneAPI. Sử dụng quy trình phát triển oneAPI và xây dựng khối lượng công việc FPGA trong C/C++. |