Flyslice Technologies Tăng tốc các Ứng dụng Giao dịch Độ trễ thấp (LLT) với Thẻ Tăng tốc FA728Q

Flyslice Technologies tận dụng FPGA Intel® Stratix® 10 và cơ sở hạ tầng Open FPGA Stack (OFS) nguồn mở để phát triển thẻ tăng tốc FPGA hiệu năng cao của họ.

Tổng quan

  • Thẻ tăng tốc dựa trên FPGA FA728Q, thẻ tăng tốc dựa trên PCIe* hiệu năng cao được trang bị FPGA Intel® Stratix® 10, hiện đã xuất xưởng.

  • Flyslice sử dụng cơ sở hạ tầng OFS để đẩy nhanh quá trình phát triển Trình quản lý Giao diện FPGA (FIM) tùy chỉnh của mình, kết hợp công cụ giảm tải TCP/IP tích hợp.

  • Độ trễ truyền TCP của thẻ tăng tốc FA728Q là dưới 100 ns cho các ứng dụng mạng quan trọng về thời gian như LLT.

author-image

Bởi

Logo FlysliceTóm tắt về Ban điều hành

LLT và các ứng dụng nhạy cảm về thời gian khác là các trường hợp sử dụng lý tưởng để tăng tốc FPGA. Để đáp ứng thị trường này, Flyslice Technologies đã phát triển thẻ tăng tốc dựa trên FPGA FA728Q. Nền tảng tăng tốc FA728Q cung cấp tài nguyên FPGA mạnh mẽ, dung lượng lưu trữ phong phú và giao diện dễ sử dụng cho người dùng cuối. Để đẩy nhanh, đơn giản hóa và chuẩn hóa quá trình phát triển bo mạch tăng tốc của mình, Flyslice Technologies đã sử dụng cơ sở hạ tầng OFS để có phương pháp mạnh mẽ cho quá trình phát triển nhanh chóng các giải pháp FPGA sử dụng cách tiếp cận "lấy và điều chỉnh". Sử dụng cơ sở hạ tầng OFS, Flyslice Technologies tích hợp công cụ giảm tải TCP/IP của mình vào FIM cơ sở nguồn mở, thường được gọi là "vỏ" FPGA.

Nền tảng và thách thức

LLT là phương pháp hiện đại để thực hiện các giao dịch chứng khoán tài chính bằng hình thức điện tử với thời gian trễ tối thiểu giữa lúc nhập lệnh và thực hiện lệnh. Các ngân hàng đầu tư lớn, quỹ đầu tư và các tổ chức tài chính khác thường sử dụng phương pháp này. Trước đây, các giao dịch được thực hiện thủ công thay vì điện tử và quá trình thực hiện các giao dịch có thể kéo dài từ vài giây đến vài phút. Tuy nhiên, với những tiến bộ về công nghệ trong phần cứng và phần mềm tương ứng, các hệ thống có thể được lập trình để tự động đưa ra quyết định mua hoặc bán dựa trên các tín hiệu và chuyển động nhất định của thị trường, giảm thời gian thực hiện giao dịch xuống còn mili giây. Với sự phổ biến ngày càng tăng của các sản phẩm tăng tốc dựa trên FPGA trong những năm gần đây, thời gian giao dịch được rút ngắn hơn nữa xuống còn micro giây hoặc dưới micro giây.

Đồng thời, các hệ thống LLT ngày càng phụ thuộc vào các mô hình thuật toán giao dịch phức tạp dành riêng cho từng chiến lược giao dịch cụ thể của công ty giao dịch khi tương tác sổ lệnh. Các giải pháp cần có bộ xử lý đa năng và điện toán đồng xử lý chuyên dụng để đáp ứng các yêu cầu về năng lượng và hiệu năng của các công ty giao dịch, chẳng hạn như trong điện toán không đồng nhất. FPGA thích hợp để triển khai các thuật toán giao dịch điều chỉnh. Tuy nhiên, việc lập trình thiết bị tăng tốc phần cứng này có thể tốn thời gian và khó di chuyển khi các dòng FPGA được cải tiến và phát triển.

Flyslice Technologies, một công ty có trụ sở tại Trung Quốc, đang tích cực giải quyết nhu cầu về tăng tốc không đồng nhất trung tâm dữ liệu và điện toán hiệu năng cao, bao gồm phân khúc LLT. Họ đưa ra thị trường các nền tảng gia tốc phần cứng dựa trên FPGA, các chức năng sở hữu trí tuệ (IP) tăng tốc FPGA và các dịch vụ thiết kế nền tảng dựa trên FPGA.

Giải pháp

Để đáp ứng các yêu cầu về độ trễ thấp, chuẩn hóa và khả năng di động của các ứng dụng LLT, Flyslice Technologies đã phát triển thẻ tăng tốc FA728Q, giúp khởi tạo một công cụ giảm tải TCP/IP tích hợp. Để làm được điều này, Flyslice Technologies đã sửa đổi FIM cơ sở được cung cấp trong bản phát hành OFS nguồn mở. Nhờ cấu trúc có thể phân tách và cách tiếp cận "lấy và điều chỉnh", OFS cho phép họ chỉ cần chuyển thuật toán của mình sang thẻ tăng tốc FA728Q trong khi vẫn tận dụng được phần còn lại của cơ sở hạ tầng được cung cấp, bao gồm trình điều khiển và thư viện phần mềm OFS, chỉ cần thực hiện các sửa đổi tối thiểu.

Sơ đồ khối OFS với giải pháp toe được triển khai trên fa728q
Hình 1. OFS với giải pháp công cụ giảm tải TCP/IP (TOE) được triển khai trên FA728Q

 

OFS là cơ sở hạ tầng phần cứng và phần mềm nguồn mở cung cấp tất cả các thành phần thiết kế, phần mềm và cơ sở hạ tầng chính cần thiết để bắt đầu phát triển bo mạch hoặc khối lượng công việc dựa trên FPGA tùy chỉnh. Cơ sở hạ tầng OFS bao gồm FIM, thường được gọi là "vỏ" và vùng Đơn vị Chức năng Gia tốc (AFU), một vùng được chỉ định để phát triển khối lượng công việc. Bằng cách sử dụng OFS, các nhà phát triển bo mạch FPGA – hay FIM – có thể tận dụng cơ sở hạ tầng nguồn mở – hoặc FIM cơ sở – để nhanh chóng phát triển một FIM tùy chỉnh, phù hợp cho bo mạch của họ dựa trên ứng dụng hoặc ngành mục tiêu. OFS cũng xuất xưởng kèm với Gói Hỗ trợ Gia tốc oneAPI (ASP), có thể được tận dụng để tóm tắt quy trình thiết kế và phần cứng FPGA. OFS tiết kiệm thời gian cho nhà phát triển, tăng khả năng di động trên các thế hệ FPGA, sử dụng các giao diện tiêu chuẩn trong ngành và cung cấp quy trình thiết kế cao cấp tùy chọn sử dụng oneAPI.

Thẻ tăng tốc FA728Q hiện đã có mặt trên thị trường và là bo mạch tăng tốc FPGA dựa trên PCIe cung cấp dung lượng bộ nhớ DDR4 trên bo mạch 32 GB và ba ổ cắm QSFP28 để hỗ trợ lên tới 100 GbE cho mỗi giao diện. Thẻ tăng tốc FA728Q cũng được kích hoạt oneAPI thông qua cơ sở hạ tầng OFS, nhờ đó khách hàng có thể triển khai các hạt nhân của họ trong RTL hoặc di chuyển các thuật toán từ CPU/GPU sang ngôn ngữ thiết kế cao cấp hơn, bao gồm C/C++. Bộ công cụ cơ sở Intel oneAPI cũng giúp tổng hợp và tối ưu hóa hạt nhân cho tài nguyên FPGA, nhờ đó rút ngắn hơn nữa thời gian đưa sản phẩm ra thị trường.

Flyslice Technologies cũng đã bắt đầu phát triển các bo mạch dựa trên FPGA Intel Agilex®, bao gồm thẻ FA927S sử dụng FPGA Intel Agilex 7 chuỗi I và thẻ FA925E sử dụng FPGA Intel Agilex 7 chuỗi F.

Thẻ FA927S có tốc độ thu phát cao lên đến 116 Gbps, PCIe 5.0 x16 và hỗ trợ Compute Express Link (CXL). Sản phẩm này nhắm đến các ứng dụng đòi hỏi nhiều băng thông và hiện đã có mặt trên thị trường để hỗ trợ phát triển RTL. Thẻ FA927S sẽ hỗ trợ OFS trong quý đầu tiên của năm 2024.

Tuy nhiên, thẻ FA925E lại cung cấp bốn dải DDR4 8 GB và bốn dải 4 GB, như vậy tổng dung lượng trên bo mạch là 48 GB. Sản phẩm được thiết kế cho các ứng dụng có yêu cầu dung lượng bộ nhớ ngoài và băng thông cao. Thẻ này hỗ trợ đầy đủ OFS và sẽ ra mắt vào cuối năm 2023. Xem Bảng 1. để so sánh ba thẻ tăng tốc.

Bảng 1. Bảng So Sánh

 

Bo mạch FA728Q

FA728Q

Bo mạch FA927S

FA927S

Bo mạch FA925E

FA925E

Công suất tối đa 215 W 200 W 150 W
Yêu cầu Làm mát Chủ động/thụ động (tùy chọn) Chủ động/thụ động (tùy chọn) Chủ động/thụ động (tùy chọn)
Hệ số hình dạng PCIe khe cắm kép, chiều cao đầy đủ, chiều dài 3/4 PCIe khe cắm kép, chiều cao đầy đủ, chiều dài một nửa PCIe khe cắm kép, chiều cao đầy đủ, chiều dài 3/4
Giao diện Mạng Ba cổng QSFP28: 3 x 100 GbE / 40 GbE Cổng QSFP28 kép: 2 x 100 GbE / 40 GbE Cổng QSFP28 kép 2 x 100 GbE / 40 GbE
Giao diện bộ nhớ 4 x 8 GB DDR4, 2.400 MHz với ECC 4 x 8 GB DDR4, 2.400 MHz với ECC 4 x 8 GB và 4 x 4 GB DDR4, 2.400 MHz với ECC
Giao diện PCIe - 5.0 x16 -
Giao diện Mở rộng - 2 đầu nối SAS mỏng x8 cho tiện ích mở rộng PCIe 4.0 -
Cổng Quản lý Micro-USB Micro-USB Micro-USB
Thiết bị FPGA 1SX280HN2F43E2VG AGIB027R29A1E2VR3 AGFB027R25A2E2V

Kết quả

Chức năng IP công cụ giảm tải được Flyslice Technologies triển khai trên thẻ FA728Q được tối ưu hóa cho độ trễ và hiệu năng để đáp ứng các yêu cầu LLT. Ở chế độ tăng tốc, độ trễ truyền TCP là dưới 100 ns, đảm bảo các kết nối ổn định và độ trễ thấp cho các ứng dụng mạng quan trọng về thời gian. Bảng 2. cho thấy độ trễ đo được với các kết nối khác nhau. Bảng 3. cho thấy các giao diện PCIe 3.0 x16 và DDR băng thông cao.

Thông số kỹ thuật Giá trị
Kết nối TCP/UDP tối đa 63 với TCP, 63 với UDP
Độ trễ TCP TX (chế độ tăng tốc) 15 xung nhịp
Độ trễ TCP TX (chế độ không tăng tốc) 46 xung nhịp
Độ trễ TCP RX 32 xung nhịp
Độ trễ UDP TX 42 xung nhịp với gói 512 byte, 18 xung nhịp với gói 128 byte
Độ trễ UDP RX 23 xung nhịp
Độ trễ vòng lặp với hạt nhân oneAPI 18 xung nhịp

Bảng 2. Thông số kỹ thuật Công cụ giảm tải TCP/IP (TOE)

Lưu ý:

1. Một khoảng xung nhịp là 6,4 ns

2. Độ trễ TX được tính từ biên giảm dần của gói EOP đến dữ liệu hợp lệ trong XGMII TXC

3. Độ trễ RX được tính từ SOP gói đến dữ liệu hợp lệ trong XGMII RXC

Đường dẫn Dữ liệu Băng thông
Bộ nhớ ghi máy chủ 8.287,68 MBps cho khối 8.192-KB
Bộ nhớ đọc máy chủ 8.241,19 MBps cho khối 8.192-KB
Bộ nhớ ghi hạt nhân 16.909,6 MBps cho khối 4.096-MB
Bộ nhớ đọc hạt nhân 17.340,3 MBps cho khối 4.096-MB

Bảng 3. Băng thông được cung cấp bởi mỗi giao diện

Sơ đồ khối đường dẫn dữ liệu băng thông cao trong nền tảng ofs
Hình 2. Đường dẫn dữ liệu băng thông cao trong nền tảng OFS

 

OFS đã giúp chúng tôi xây dựng một nền tảng tăng tốc cần thiết một cách dễ dàng và nhanh chóng cho khách hàng, từ trình điều khiển API phần mềm cho đến phần cứng cơ bản dưới dạng một bộ thiết bị đầy đủ.

Cheng Ailian, Flyslice Technologies, ltd.

Cách bắt đầu tăng tốc FPGA bằng OFS

Các nhà phát triển FPGA có thể tận dụng thẻ tăng tốc FA728Q và bo mạch hỗ trợ OFS, sử dụng tài liệu nguồn mở và mã nguồn để bắt đầu xây dựng khối lượng công việc tùy chỉnh của mình.

Bảng sau đây tóm tắt cách mà nhà phát triển có thể tạo khối lượng công việc dựa trên FPGA bằng bo mạch tăng tốc của Flyslice Technologies.

Tận dụng Tăng tốc FPGA cho khối lượng công việc của bạn
Bước 1: Chọn một bo mạch Xem bo mạch hỗ trợ OFS của Flyslice Technologies, thẻ tăng tốc FA728Q
Bước 2: Đánh giá tài nguyên nguồn mở OFS

Flyslice Technologies sẽ cung cấp phiên bản tài liệu kỹ thuật OFS tương ứng.

Bước 3: Truy cập mã phần cứng và phần mềm nguồn mở

Flyslice Technologies sẽ cung cấp mã phần cứng và phần mềm OFS tương ứng. Đây là bản phân phối cụ thể của họ về mã cơ sở OFS do Intel cung cấp.

Bước 4: Phát triển khối lượng công việc bằng RTL hoặc C/C++ (sử dụng oneAPI)

Tuân theo luồng OFS RTL

HOẶC

OFS cho phép biên dịch hạt nhân oneAPI. Sử dụng quy trình phát triển oneAPI và xây dựng khối lượng công việc FPGA trong C/C++.