Intel® Distribution bộ công cụ OpenVINO™

753640
3/6/2024

Giới thiệu

Gói này chứa Intel® Distribution phần mềm Bộ công cụ OpenVINO™ phiên bản 2023.3 LTS dành cho Linux*, Windows* và macOS*.

Các bản tải xuống sẵn có

  • Debian Linux*
  • Kích thước: 24.7 MB
  • SHA256: A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • CentOS 7 (1908)*
  • Kích thước: 48.4 MB
  • SHA256: BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • Red Hat Enterprise Linux 8*
  • Kích thước: 41.7 MB
  • SHA256: DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • Ubuntu 22.04 LTS*
  • Kích thước: 45.6 MB
  • SHA256: CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • Ubuntu 20.04 LTS*
  • Kích thước: 44.6 MB
  • SHA256: 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • Ubuntu 18.04 LTS*
  • Kích thước: 41.7 MB
  • SHA256: 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • Ubuntu 18.04 LTS*
  • Kích thước: 36.1 MB
  • SHA256: 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • Kích thước: 30.3 MB
  • SHA256: 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • Kích thước: 124.8 MB
  • SHA256: EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • Windows 11*, Windows 10, 64-bit*
  • Kích thước: 95.9 MB
  • SHA256: 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

Mô tả chi tiết

Có gì mới không

Thêm phạm vi AI tạo ra và tích hợp khung để giảm thiểu thay đổi mã.

  • Cải thiện trải nghiệm vượt trội cho các mô hình mã hóa câu TensorFlow* thông qua việc cài đặt bộ công cụ OpenVINO™ Tokenizers.
  • Bộ công cụ OpenVINO™ hiện hỗ trợ Mixed of Experts (MoE), một kiến trúc mới giúp xử lý các mô hình tạo hiệu quả hơn thông qua đường ống.
  • Các nhà phát triển JavaScript hiện có quyền truy cập liền mạch vào API OpenVINO. Liên kết mới này cho phép tích hợp trơn tru với JavaScript API.
  • Các mô hình mới và đáng chú ý đã được xác nhận: Mistral, StableLM-tuned-alpha-3b và StableLM-Epoch-3B.

Hỗ trợ Mô hình Ngôn ngữ Lớn (LLM) rộng hơn và nhiều kỹ thuật nén mô hình hơn.

  • Cải thiện chất lượng nén trọng lượng INT4 cho LLM bằng cách thêm kỹ thuật phổ biến, Lượng tử hóa trọng lượng nhận biết kích hoạt, vào Khung nén mạng thần kinh (NNCF). Việc bổ sung này làm giảm yêu cầu bộ nhớ và giúp tăng tốc độ tạo mã thông báo.
  • Trải nghiệm hiệu suất LLM nâng cao trên CPU Intel®, với tính năng tăng cường trạng thái bộ nhớ trong và độ chính xác INT8 cho bộ nhớ đệm KV. Được thiết kế riêng cho các LLM đa truy vấn như ChatGLM.
  • Bản phát hành OpenVINO™ 2024.0 giúp các nhà phát triển dễ dàng hơn bằng cách tích hợp nhiều tính năng OpenVINO™ hơn với hệ sinh thái Hugging Face*. Lưu trữ cấu hình lượng tử hóa cho các mô hình phổ biến trực tiếp trong Hugging Face để nén các mô hình thành định dạng INT4 trong khi vẫn giữ được độ chính xác và hiệu suất.

Tính di động và hiệu suất cao hơn để chạy AI ở biên, trong đám mây hoặc cục bộ.

  • Kiến trúc plugin xem trước của Bộ xử lý thần kinh tích hợp (NPU) như một phần của bộ xử lý Intel® Core™ Ultra hiện được bao gồm trong gói OpenVINO™ chính trên PyPI.
  • Cải thiện hiệu năng trên ARM* bằng cách bật thư viện phân luồng ARM. Ngoài ra, chúng tôi hiện hỗ trợ các nền tảng ARM đa lõi và bật độ chính xác FP16 theo mặc định trên MacOS*.
  • LLM mới và cải tiến phục vụ các mẫu từ Máy chủ Mô hình OpenVINO™ cho đầu vào nhiều lô và Tạo tăng cường truy xuất (RAG).

Thời gian chạy OpenVINO™

Phổ biến

  • API cũ cho các ràng buộc CPP và Python đã bị xóa.
  • Hỗ trợ StringTensor đã được mở rộng bởi các nhà khai thác như Gather, Reshape và Concat, như một nền tảng để cải thiện hỗ trợ cho các nhà khai thác tokenizer và tuân thủ TensorFlow Hub.
  • oneDNN đã được cập nhật lên v3.3 cho thiết bị CPU và v3.4 cho mục tiêu thiết bị GPU. (ghi chú phát hành oneDNN: https://github.com/oneapi-src/oneDNN/releases).

Plugin thiết bị CPU

  • Hiệu suất LLM trên nền tảng CPU Intel® đã được cải thiện cho các hệ thống dựa trên AVX2 và AVX512, sử dụng lượng tử hóa động và tối ưu hóa trạng thái bộ nhớ trong, chẳng hạn như độ chính xác INT8 cho bộ nhớ đệm KV. Thế hệ thứ 13 và 14 của bộ xử lý Intel® Core™ và bộ xử lý Intel® Core™ Ultra sử dụng AVX2 để thực thi CPU và các nền tảng này sẽ được hưởng lợi từ việc tăng tốc.
  • Bật các tính năng này bằng cách đặt "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" và "KV_CACHE_PRECISION":"u8" trong tệp cấu hình.
  • Cấu hình API "ov::affinity" hiện không còn được dùng nữa và sẽ bị xóa trong bản phát hành 2025.0.
  • Những điều sau đây đã được cải thiện và tối ưu hóa:
    • LLM cấu trúc đa truy vấn (chẳng hạn như ChatGLM 2/3) cho BF16 trên bộ xử lý có thể mở rộng Intel® Xeon® thế hệ thứ 4 và thứ 5.
    • Hiệu suất mô hình mixtral.
    • Thời gian biên dịch LLM nén 8 bit và sử dụng bộ nhớ, có giá trị cho các mô hình có nhúng lớn như Qwen.
    • Mạng tích chập với độ chính xác FP16 trên nền tảng ARM.

Plugin thiết bị GPU

  • Những điều sau đây đã được cải thiện và tối ưu hóa:
    • Độ trễ token trung bình cho LLM trên nền tảng GPU tích hợp (iGPU), sử dụng mô hình nén INT4 với kích thước ngữ cảnh lớn trên bộ xử lý Intel® Core™ Ultra.
    • Hiệu suất tìm kiếm chùm tia LLM trên iGPU. Cả mức giảm độ trễ trung bình và mã thông báo đầu tiên đều có thể được mong đợi đối với kích thước ngữ cảnh lớn hơn.
    • Hiệu suất đa lô của YOLOv5 trên nền tảng iGPU.
  • Việc sử dụng bộ nhớ cho LLM đã được tối ưu hóa, cho phép các mô hình 7B có ngữ cảnh lớn hơn trên nền tảng 16 Gb.

NPU Device Plugin (tính năng xem trước)

  • Plugin NPU cho OpenVINO™ hiện có sẵn thông qua PyPI (chạy "pip install openvino").

OpenVINO Python API

  • Chữ ký phương pháp .add_extension đã được căn chỉnh, cải thiện hành vi API để có trải nghiệm người dùng tốt hơn.

OpenVINO C API

  • ov_property_key_cache_mode (C++ ov::cache_mode) hiện cho phép các chế độ optimize_size và optimize_speed đặt / lấy bộ nhớ cache mô hình.
  • Ngoại lệ VA trên Windows* đã được sửa.

OpenVINO Node.js API

  • OpenVINO - Các ràng buộc JS phù hợp với API OpenVINO C++.
  • Một kênh phân phối mới hiện đã có sẵn: Đăng ký phần mềm Trình quản lý gói nút (npm) (kiểm tra hướng dẫn cài đặt)
  • API JavaScript hiện đã có sẵn cho người dùng Windows*, vì một số hạn chế đối với các nền tảng khác ngoài Linux* đã được loại bỏ.

Hỗ trợ TensorFlow Framework

  • Các tensor chuỗi hiện được hỗ trợ nguyên bản, được xử lý trên các lớp đầu vào, đầu ra và trung gian # 22024
    • TensorFlow Hub phổ quát-câu-bộ mã hóa-đa ngôn ngữ được suy ra khỏi hộp.
    • Tensor chuỗi được hỗ trợ cho các hoạt động Thu thập, Mèo và Định hình lại.
    • Tích hợp với mô-đun openvino-tokenizers - nhập openvino-tokenizers sẽ tự động vá TensorFlow Frontend với các trình dịch cần thiết cho các mô hình có mã hóa.
  • Dự phòng cho Trình tối ưu hóa mô hình bằng cách vận hành giao diện người dùng cũ không còn khả dụng. Dự phòng theo cấu hình .json sẽ vẫn còn cho đến khi Trình tối ưu hóa Mô hình bị ngừng #21523
  • Hỗ trợ cho những điều sau đây đã được thêm vào:
    • Các biến và tài nguyên có thể thay đổi như HashTable*, Variable, VariableV2 #22270
    • Các loại tensor mới: tf.u16, tf.u32 và tf.u64 #21864
    • 14 Hoạt động MỚI *. Kiểm tra danh sách ở đây (được đánh dấu là MỚI).
    • TensorFlow 2,15 #22180
  • Các sự cố sau đã được khắc phục:
    • Chuyển đổi UpSampling2D bị lỗi khi nhập loại là int16 # 20838
    • Chỉ mụcChỉ mục danh sách lỗi cho Squeeze #22326
    • Tính toán FloorDiv đúng cho các số nguyên đã ký #22684
    • Đã sửa lỗi diễn viên xấu cho tf. TensorShape để ov. Hình dạng một phần # 22813
    • Sửa lỗi đọc thuộc tính tf.string cho các mô hình trong bộ nhớ #22752

Hỗ trợ khung ONNX

  • ONNX* Frontend hiện sử dụng API OpenVINO 2.0.

Hỗ trợ khung PyTorch

  • Tên cho các đầu ra được giải nén từ dict hoặc tuple bây giờ rõ ràng hơn. #22821
  • FX Graph (torch.compile) hiện hỗ trợ đầu vào kwarg, cải thiện độ bao phủ của loại dữ liệu. #22397

Máy chủ mẫu OpenVINO

  • OpenVINO™ Phụ trợ thời gian chạy được sử dụng hiện là 2024.0.
  • Bản demo tạo văn bản hiện hỗ trợ nhiều kích thước lô, với các máy khách phát trực tuyến và đơn nhất.
  • Máy khách REST hiện hỗ trợ các servables dựa trên đồ thị mediapipe, bao gồm các nút đường ống python.
  • Các phần phụ thuộc bao gồm đã nhận được các bản cập nhật liên quan đến bảo mật.
  • Việc định hình lại mô hình trong thời gian chạy dựa trên các yêu cầu đến (hình dạng tự động và kích thước lô tự động) không còn được dùng và sẽ bị xóa trong tương lai. Thay vào đó, bạn nên sử dụng các mô hình hình dạng động của OpenVINO.

Khung nén mạng thần kinh (NNCF)

  • Thuật toán lượng tử hóa trọng lượng nhận biết kích hoạt (AWQ) để nén trọng số 4 bit nhận biết dữ liệu hiện đã có sẵn. Nó tạo điều kiện cho độ chính xác tốt hơn cho các LLM nén với tỷ lệ trọng số 4 bit cao. Để kích hoạt nó, hãy sử dụng tham số tùy chọn 'awq' chuyên dụng của API nncf.compress_weights().
  • Các mô hình ONNX hiện được hỗ trợ trong Lượng tử hóa sau đào tạo với Kiểm soát độ chính xác, thông qua phương pháp nncf.quantize_with_accuracy_control(). Nó có thể được sử dụng cho các mô hình ở định dạng IR và ONNX OpenVINO.
  • Một hướng dẫn ví dụ về nén trọng lượng hiện đã có sẵn, trình bày cách tìm các siêu tham số thích hợp cho mô hình TinyLLama từ Máy biến áp mặt ôm, cũng như các LLM khác, với một số sửa đổi.

OpenVINO Tokenizer

  • Hỗ trợ Regex đã được cải thiện.
  • Độ phủ mô hình đã được cải thiện.
  • Siêu dữ liệu Tokenizer đã được thêm vào rt_info.
  • Hỗ trợ hạn chế cho các mô hình Văn bản Tensorflow đã được thêm vào: chuyển đổi MUSE cho TF Hub với đầu vào chuỗi.
  • OpenVINO Tokenizers hiện có kho lưu trữ riêng của họ: https://github.com/openvinotoolkit/openvino_tokenizers

Các thay đổi khác và các vấn đề đã biết

Máy tính xách tay Jupyter

Các sổ ghi chép sau đây đã được cập nhật hoặc mới được thêm vào:

Các vấn đề đã biết

Thành phần: PyTorch FE.

ID: Không áp dụng

Mô tả: Bắt đầu từ bản phát hành 2024.0, đầu vào và đầu ra của mô hình sẽ không còn tên tensor nữa, trừ khi được đặt rõ ràng để phù hợp với hành vi khung PyTorch.

Thành phần: Thời gian chạy GPU.

Mã nhận dạng: 132376

Mô tả: Độ trễ suy luận đầu tiên chậm lại đối với LLM trên bộ xử lý Intel® Core™ Ultra. Giảm tới 10-20% có thể xảy ra do tối ưu hóa bộ nhớ triệt để để xử lý các chuỗi dài (giảm khoảng 1,5-2 GB sử dụng bộ nhớ).

Thành phần: Thời gian chạy CPU.

ID: Không áp dụng

Mô tả: Kết quả hiệu suất (độ trễ mã thông báo đầu tiên) có thể khác với kết quả được cung cấp bởi phiên bản OpenVINO trước, đối với suy luận gợi ý "độ trễ" của LLM có lời nhắc dài trên nền tảng Intel® Xeon® có 2 ổ cắm trở lên. Lý do là tất cả các lõi CPU chỉ của một socket duy nhất chạy ứng dụng đều được sử dụng, giảm chi phí bộ nhớ cho LLM khi không sử dụng điều khiển numa.

Giải pháp thay thế: hành vi được mong đợi nhưng cấu hình luồng và luồng có thể được sử dụng để bao gồm lõi từ tất cả các ổ cắm.

Ngừng sử dụng và Hỗ trợ

Không nên sử dụng các tính năng và thành phần không dùng nữa. Chúng có sẵn để cho phép chuyển đổi suôn sẻ sang các giải pháp mới và sẽ bị ngừng sản xuất trong tương lai. Để tiếp tục sử dụng các tính năng Đã ngừng sản xuất, bạn sẽ phải hoàn nguyên về phiên bản LTS OpenVINO cuối cùng hỗ trợ chúng.

Để biết thêm chi tiết, hãy tham khảo trang OpenVINO các tính năng và linh kiện cũ.

Ngừng sản xuất vào năm 2024.0:

  • Các thành phần thời gian chạy:
    • Intel® Gaussian & Neural Accelerator (Intel® GNA). Cân nhắc sử dụng Bộ xử lý thần kinh (NPU) cho các hệ thống công suất thấp như Intel® Core™ Ultra hoặc thế hệ thứ 14 trở lên.
    • OpenVINO API C++/C/Python 1.0 (xem hướng dẫn chuyển đổi API 2023.3 để tham khảo).
    • Tất cả API kế thừa giao diện người dùng ONNX (được gọi là ONNX_IMPORTER_API)
    • Thuộc tính 'PerfomanceMode.UNDEFINED' thuộc tính OpenVINO Python API
  • Công cụ:

Không dùng nữa và sẽ bị xóa trong tương lai:

  • Gói Công cụ phát triển OpenVINO™ (pip install openvino-dev) sẽ bị xóa khỏi các tùy chọn cài đặt và kênh phân phối bắt đầu từ OpenVINO 2025.0.
  • Trình tối ưu hóa mô hình sẽ ngừng hoạt động với OpenVINO 2025.0. Thay vào đó, hãy cân nhắc sử dụng Bộ chuyển đổi Mô hình OpenVINO (lệnh gọi API: OVC). Hãy làm theo hướng dẫn chuyển đổi mô hình để biết thêm chi tiết.
  • API chung sở thích tài sản OpenVINO sẽ ngừng hoạt động với OpenVINO 2025.0. Nó sẽ được thay thế bằng cấu hình ràng buộc CPU (ov::hint::enable_cpu_pinning).
  • Mô hình OpenVINO Thành phần máy chủ:
    • Việc định hình lại mô hình trong thời gian chạy dựa trên các yêu cầu đến (hình dạng tự động và kích thước lô tự động) không còn được dùng và sẽ bị xóa trong tương lai. Thay vào đó, bạn nên sử dụng các mô hình hình dạng động của OpenVINO.

Yêu cầu hệ thống

Disclaimer. Một số phần cứng nhất định (bao gồm nhưng không giới hạn ở GPU và NPU) yêu cầu cài đặt thủ công các trình điều khiển cụ thể và/hoặc các thành phần phần mềm khác để hoạt động chính xác và/hoặc sử dụng các khả năng của phần cứng một cách tốt nhất. Điều này có thể yêu cầu cập nhật hệ điều hành, bao gồm nhưng không giới hạn ở nhân Linux, vui lòng tham khảo tài liệu của hệ điều hành để biết chi tiết. Những sửa đổi này phải được xử lý bởi người dùng và không phải là một phần của cài đặt OpenVINO. Những sửa đổi này phải được xử lý bởi người dùng và không phải là một phần của quá trình cài đặt OpenVINO. Để biết các yêu cầu hệ thống, hãy kiểm tra phần Yêu cầu Hệ thống trong Ghi chú Phát hành.

Hướng dẫn cài đặt

Bạn có thể chọn cách cài đặt OpenVINO™ Runtime theo hệ điều hành của mình:

Những gì được bao gồm trong gói tải xuống

  • OpenVINO™ Runtime/Inference Engine cho C/C++

Liên kết hữu ích

LƯU Ý: Liên kết mở trong một cửa sổ mới.

Bản tải xuống này hợp lệ cho (các) sản phẩm được liệt kê dưới đây.

Nội dung gốc bằng tiếng Anh trên trang này vừa do con người vừa do máy dịch. Nội dung này chỉ để cung cấp thông tin chung và giúp quý vị thuận tiện. Quý vị không nên tin đây là thông tin hoàn chỉnh hoặc chính xác. Nếu có bất kỳ mâu thuẫn nào giữa bản tiếng Anh và bản dịch của trang này, thì bản tiếng Anh sẽ chi phối và kiểm soát. Xem phiên bản tiếng Anh của trang này.