Cách khởi động khả năng phục hồi lỗi (FRB) hoạt động trên bo mạch máy chủ Intel và hệ thống máy chủ Intel®

Tài liệu

Thông tin sản phẩm & Tài liệu

000007197

11/12/2023


(Các) triệu chứng:

  • FRB là gì?
  • Làm cách nào để biết nó có hoạt động hay không?
  • Khởi động chống chịu lỗi trên máy chủ Intel®.


Giải pháp:

Khởi động có khả năng phục hồi lỗi

BMC (Bộ điều khiển quản lý bảng cơ sở) thực hiện các cấp độ FRB 1, 2 và 3. Nếu bộ xử lý bootstrap mặc định (BSP) không hoàn tất quá trình khởi động, FRB sẽ cố gắng khởi động bằng bộ xử lý thay thế.

  • FRB cấp 1 được thiết kế để phục hồi từ lỗi BIST được phát hiện trong quá trình POST. Phục hồi FRB này được xử lý hoàn toàn bằng mã BIOS.
  • FRB cấp 2 được thiết kế để phục hồi từ thời gian chờ của cơ quan giám sát trong POST. Bộ đếm thời gian giám sát cho FRB cấp 2 được thực hiện trong BMC.
  • FRB cấp 3 được thiết kế để phục hồi từ thời gian chờ của cơ quan giám sát khi thiết lập lại cứng hoặc tăng sức mạnh. Điều này cung cấp chức năng phần cứng cho cấp độ FRB này.

FRB-1

Trong hệ thống đa xử lý, BIOS đăng ký các bộ xử lý ứng dụng trong bảng đa xử lý (MP) và bảng ACPI APIC. Khi được khởi động bởi BSP, nếu bộ xử lý ứng dụng (AP) không hoàn tất khởi tạo trong một thời gian nhất định, nó được coi là không hoạt động. Nếu BIOS phát hiện bộ xử lý ứng dụng bị lỗi BIST hoặc không hoạt động, BIOS sẽ yêu cầu BMC vô hiệu hóa bộ xử lý đó.

BMC sau đó tạo thiết lập lại hệ thống trong khi vô hiệu hóa bộ xử lý; BIOS sẽ không thấy bộ xử lý bị lỗi trong chu kỳ khởi động tiếp theo. AP bị lỗi không được liệt kê trong bảng MP, cũng như trong bảng ACPI APIC và không hiển thị với HĐH. Nếu BIOS phát hiện BSP bị lỗi BIST, nó sẽ gửi yêu cầu đến BMC để vô hiệu hóa bộ xử lý hiện tại. Nếu không có bộ xử lý thay thế, BMC sẽ phát ra tiếng bíp loa và tạm dừng hệ thống. Nếu BMC có thể tìm thấy bộ xử lý khác, quyền sở hữu BSP sẽ được chuyển cho bộ xử lý đó thông qua thiết lập lại hệ thống.

FRB-2

Bộ đếm thời gian watchdog thứ hai (FRB-2) trong BMC được BIOS đặt trong khoảng 6 phút và được thiết kế để đảm bảo rằng hệ thống hoàn thành BIOS POST. Bộ hẹn giờ FRB-2 được bật trước khi bộ hẹn giờ FRB-3 bị tắt để ngăn chặn bất kỳ cửa sổ thời gian không được bảo vệ nào. Gần cuối POST, trước khi tùy chọn ROM được khởi tạo, BIOS sẽ vô hiệu hóa bộ hẹn giờ FRB-2 trong BMC.

Nếu hệ thống chứa hơn 1 GB bộ nhớ và người dùng chọn kiểm tra mọi DWORD của bộ nhớ, bộ hẹn giờ của cơ quan giám sát sẽ bị tắt trước khi bắt đầu kiểm tra bộ nhớ mở rộng, vì quá trình kiểm tra bộ nhớ có thể mất hơn 6 phút theo cấu hình này. Nếu hệ thống bị treo trong khi POST, BIOS sẽ không vô hiệu hóa bộ hẹn giờ trong BMC, tạo ra thiết lập lại hệ thống không đồng bộ (ASR).

FRB-3

Bộ đếm thời gian đầu tiên (FRB-3) bắt đầu đếm ngược bất cứ khi nào hệ thống thoát khỏi cài đặt gốc, thường là khoảng 5 giây. Nếu BSP đặt lại thành công và bắt đầu thực thi, BIOS sẽ vô hiệu hóa bộ hẹn giờ FRB-3 trong BMC bằng cách hủy xác nhận tín hiệu FRB_TIMER_HLT (GPIO) và hệ thống tiếp tục với POST. Nếu bộ hẹn giờ hết hạn do BSP không tìm nạp hoặc thực thi mã BIOS, BMC sẽ đặt lại hệ thống và vô hiệu hóa bộ xử lý bị lỗi.

Hệ thống tiếp tục thay đổi BSP cho đến khi BIOS POST vượt qua việc vô hiệu hóa bộ hẹn giờ FRB-3 trong BMC. BMC phát ra mã bíp trên loa nếu không tìm thấy bộ xử lý tốt. Quá trình đạp xe qua tất cả các bộ xử lý được lặp lại khi thiết lập lại hệ thống hoặc chu kỳ nguồn.