Chẩn đoán cơ bản cho các lỗi bộ nhớ ECC có thể sửa / không thể sửa chữa với bo mạch máy chủ Intel®

Tài liệu

Xử lý sự cố

000024007

21/12/2023

Lưu ý Để được hỗ trợ khắc phục sự cố được mô tả trong bài viết này, vui lòng tham khảo Thông số kỹ thuật sản phẩm dành cho nền tảng máy chủ của bạn.

Tôi đang nhìn thấy gì?

Sự kiện Mã sửa lỗi (ECC) có thể sửa và/hoặc không thể sửa chữa cho mô-đun bộ nhớ. Ví dụ:

Cảm biến Mmry ECC Bộ xử lý SMI Cảnh báo Bộ nhớ CPU: 1, DIMM: D0 DIMM Xếp hạng: 1. - ECC có thể sửa / lỗi bộ nhớ có thể sửa chữa khác - Khẳng định.

Sự kiện lỗi có thể sửa mã lỗi bộ nhớ (ECC) là gì?

Lỗi có thể sửa ECC thể hiện sự tràn ngưỡng cho một Mô-đun bộ nhớ nội tuyến kép (DIMM) nhất định trong một khung thời gian nhất định.


Cách khắc phục:

Lỗi dữ liệu bộ nhớ được ghi lại là có thể sửa chữa hoặc không thể sửa chữa. Tham khảo hướng dẫn bên dưới, dựa trên loại lỗi bạn gặp phải:

error types

Ghi chú
  • Nếu không có sự cố nghiêm trọng (Màn hình tím chết chóc (PSOD) hoặc khởi động lại đột ngột) và lỗi ECC có thể sửa chữa, bao gồm lỗi Sửa dữ liệu thiết bị kép thích ứng (ADDDC), ít hơn 10 sự kiện cứ sau 24 giờ đối với mỗi vị trí DIMM, nằm trong giới hạn ngưỡng, khuyến nghị là giám sát máy chủ để phát hiện bất kỳ lỗi ECC tái diễn nào trên mỗi vị trí DIMM gây ra sự kiện.
  • Nếu có sự cố nghiêm trọng (Màn hình tím chết chóc (PSOD) hoặc khởi động lại đột xuất) và lỗi ECC có thể sửa chữa, bao gồm lỗi Sửa dữ liệu thiết bị kép thích ứng (ADDDC), ít hơn 10 sự kiện cứ sau 24 giờ đối với mỗi vị trí DIMM, bạn nên đặt lại từng vị trí DIMM bằng cách làm theo các bước dưới đây:
    1. TẮT nguồn hệ thống và tháo cáp nguồn AC.
    2. Xác định vị trí DIMM để ngồi lại. Tham khảo Thông số kỹ thuật sản phẩm dành cho nền tảng máy chủ của bạn để xác định vị trí DIMM.
    3. Thực hiện việc sắp xếp lại vị trí của DIMM đã xác định.
    4. Cắm cáp nguồn AC và BẬT lại nguồn hệ thống.
    5. Quan sát trong 24 giờ để phát hiện bất kỳ lỗi ECC tái phát nào.
    6. Nếu lỗi ECC vẫn tiếp diễn với cùng một vị trí DIM đã được đặt lại, hãy tạo và gửi nhật ký SEL và Gỡ lỗi, cả hai đều được tạo từ Bảng điều khiển web BMC đến Intel Customer Support
  • Các tính năng kiểm tra bộ nhớ nâng cao (AMT) đã được giới thiệu trong BIOS và ngăn xếp chương trình cơ sở bắt đầu từ bản sửa đổi BIOS 02.01.0014 cho Hệ thống Máy chủ Intel® S2600BP, S2600WF và S2600ST; và bắt đầu với bản sửa đổi BIOS 22.01.0097 cho Hệ thống Máy chủ Intel® S9200WK. Đối với các sản phẩm này, bạn nên bật tính năng kiểm tra bộ nhớ nâng cao (AMT) và sửa chữa gói sau (PPR) thông qua tiện ích thiết lập BIOS để thực hiện kiểm tra toàn bộ tình trạng bộ nhớ. Tham khảo Chương 5 trong Hướng dẫn thay thế bộ nhớ và Kiểm tra bộ nhớ nâng cao cho các sản phẩm máy chủ Intel dựa trên chipset Intel® 62X – Sách trắng để biết các bước chi tiết.

Ghi chú

Lỗi Mã Sửa lỗi (ECC) là lỗi tự sửa. Tùy thuộc vào cấu hình Độ tin cậy sẵn có khả năng phục vụ (RAS) của bộ nhớ, Bộ điều khiển bộ nhớ tích hợp (IMC) có thể đưa DIMM bị ảnh hưởng ngoại tuyến.

Đối với các nền tảng máy chủ Intel khác nhau, có một số khác biệt trong định nghĩa sự kiện của chúng, hãy tham khảo Hướng dẫn khắc phục sự cố nhật ký sự kiện hệ thống cho nền tảng máy chủ của bạn

Intel khuyên bạn nên tải xuống và cập nhật BIOS hệ thống lên phiên bản mới nhất hiện có cho nền tảng máy chủ của bạn.

Nếu hệ thống là Khối Trung tâm Dữ liệu Intel® dành cho Đám mây Doanh nghiệp Nutanix*, hãy truy cập trang Trình quản lý Vòng đời Nutanix*. Để biết danh sách về khả năng tương thích của phần cứng và vi chương trình, hãy truy cập trang Tương thích Phần cứng và Chương trình cơ sở Nutanix*.

Chủ đề liên quan
Hướng dẫn thay thế bộ nhớ và kiểm tra bộ nhớ nâng cao cho các sản phẩm máy chủ Intel dựa trên chipset Intel® 62X – Sách trắng
Vai trò của bộ nhớ ECC
Cách khôi phục từ IERR cho bo mạch máy chủ Intel®
Máy chủ của tôi gặp sự cố và hiển thị lỗi này: Bộ xử lý CPU Máy Chk
Để biết các bản cập nhật chương trình cơ sở và mẹo khắc phục sự cố
Sự kiện lỗi có thể sửa mã lỗi bộ nhớ (ECC) là gì?
Công cụ SDLA Cách đếm lỗi ECC