Microsoft vừa chính thức ra mắt dòng mô hình nhẹ Phi-3, sau gần một tháng kể từ khi công bố. Dòng mô hình này bao gồm ba phiên bản: Phi-3-medium, Phi-3-small và Phi-3-mini, đều có sẵn cho các nhà phát triển. Phi-3-mini đã được tích hợp vào Azure AI1.

Phi-3 là một mô hình ngôn ngữ mạnh mẽ với 3 tỷ tham số, được phát triển bởi Microsoft Research. Mặc dù nhỏ gọn hơn so với các mô hình lớn hơn, Phi-3 vẫn có khả năng xử lý tương tự như GPT-3.5 của OpenAI. Điểm đặc biệt là Phi-3 có giá thành thấp hơn, giúp các nhà phát triển tận dụng AI trên các thiết bị di động, máy tính xách tay và đồng hồ thông minh2.

1.   Tổng quan về các mô hình Phi-3:

  • Microsoft đã giới thiệu dòng mô hình Phi-3, bao gồm ba biến thể:
    • Phi-3-mini: Mô hình ngôn ngữ với 3,8 tỷ tham số.
    • Phi-3-small: Mô hình ngôn ngữ với 7 tỷ tham số.
    • Phi-3-medium: Mô hình ngôn ngữ với 14 tỷ tham số.
    • Các mô hình này thuộc dòng mô hình AI mã nguồn mở do Microsoft phát triển và được thiết kế đặc biệt để tiết kiệm chi phí trong khi vẫn duy trì hiệu suất cao.
    • Các mô hình Phi-3 vượt trội hơn so với các mô hình cùng kích thước hoặc lớn hơn trên các bài kiểm tra về ngôn ngữ, lập luận, lập trình và toán học.

2.   Phi-3-mini:

  • Phi-3-mini là thành viên nhỏ nhất trong dòng mô hình nhẹ Phi-3.
    • Nó hỗ trợ cửa sổ ngữ cảnh lên đến 128K từ, phù hợp cho nhiều nhiệm vụ khác nhau.Mô hình đã được điều chỉnh theo hướng dẫn, có nghĩa là nó đã được huấn luyện để thực hiện các loại hướng dẫn khác nhau, giúp nó sẵn sàng sử dụng ngay khi cần.
    • Nhà phát triển có thể truy cập Phi-3-mini trên Microsoft Azure AI Studio, Hugging Face và Ollama. Nó được tối ưu hóa cho ONNX Runtime, Windows DirectML và GPU NVIDIA.

3.   So sánh hiệu suất:

  • Các mô hình Phi-3 vượt trội hơn so với các mô hình ngôn ngữ cùng kích thước hoặc lớn hơn trên các bài kiểm tra quan trọng.
    • Phi-3-mini hoạt động tốt hơn cả các mô hình gấp đôi kích thước của nó, và cả Phi-3-small lẫn Phi-3-medium đều vượt trội hơn so với các mô hình lớn hơn, bao gồm cả GPT-3.5T của OpenAI.

4.   Phi-3-vision:

  • Ngoài các mô hình Phi-3, Microsoft cũng giới thiệu Phi-3-vision.
  • Phi-3-vision là biến thể đa phương thức hỗ trợ các nhiệm vụ lập luận hình ảnh tổng quát, bao gồm lập luận về biểu đồ, đồ thị và bảng.
  • Người dùng có thể đặt câu hỏi về dữ liệu hình ảnh hoặc hỏi về hình ảnh cụ thể bằng cách sử dụng câu hỏi mở.
  • Google cũng đã giới thiệu mô hình đa phương thức nhẹ hơn của riêng họ vào tuần trước tại hội nghị phát triển của họ. PaliGemma cung cấp khả năng tương tự nhưng có 3 tỷ tham số, nhỏ hơn một chút so với phiên bản của Microsoft.

Có một điểm thú vị là việc có một mô hình AI có thể hiểu nhiều hình thức đầu vào đối với các nhà phát triển, và nếu có cách nào để cung cấp hiệu suất của một mô hình ngôn ngữ lớn nhưng với chi phí giảm đi đáng kể, thì việc áp dụng mô hình này có thể được mở rộng.

Mặc dù được công bố dưới dạng phiên bản xem trước, Microsoft chưa tiết lộ thời điểm Phi-3-vision sẽ được công khai.

Nguồn: venturebeat

Tham khảo thêm: