Mistral hôm nay ra mắt model LLM Mistral NeMo 12 tỷ tham số với context windows 128 ngàn token, hứa hẹn tiếp tục là một LLM mở thay thế cho model Mistral 7B phổ biến trước đây, đồng thời có hiệu năng cao hơn so với các “đối thủ” là Gemma 2 9B và Llama 3 8B.

Mistral cho biết Mistral NeMo có khả năng suy luận, kiến thức và khả năng code chính xác cao nhất hiện nay so với các model khác có cùng kích thước. Mistral Nemo được tạo ra dựa trên mối hợp tác với Nvidia, được huấn luyện bằng 2072 chiếc H100 80GB trên DGX Cloud.

Mô hình đa ngôn ngữ cho mọi người

Mô hình được thiết kế cho các ứng dụng toàn cầu, đa ngôn ngữ. Nó được đào tạo về gọi hàm, có cửa sổ ngữ cảnh lớn và đặc biệt mạnh về tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Hindi. Đây là một bước tiến mới hướng tới việc đưa các mô hình AI tiên tiến đến tay mọi người bằng mọi ngôn ngữ hình thành nên nền văn hóa của con người.

Hình 1: Hiệu suất của Mistral NeMo trên các tiêu chuẩn đa ngôn ngữ.

Mistral Nemo sử dụng cơ chế token hóa hoàn toàn mới gọi là Tekken, được huấn luyện để hỗ trợ hiệu quả hơn 100 ngôn ngữ, đồng thời có khả năng xử lý ngôn ngữ tự nhiên dạng text lẫn code một cách hiệu quả hơn so với cơ chế token hóa SentencePiece dùng trên các model trước đây của Mistral. Với khả năng này, Mistral Nemo cho khả năng xử lý đa ngôn ngữ hiệu quả hơn, đặc biệt là tiếng Trung, Ý, Pháp, Đức, Tây Ban Nha và Nga cải thiện 30%, và tiếng Hàn và tiếng Ả Rập hiệu quả hơn lần lượt 2 và 3 lần. So với Llama 3, Tekken cho hiệu suất cao hơn tới 85% ở tất cả các ngôn ngữ.

Một số kết quả benchmark, Nemo đạt điểm số MMLU 68%, Instruct 53,4% MixEval Hard, tức là tổng thể cao hơn khá nhiều so với Gemma 2 9B và Llama 3 8B. Tương tự như các phiên bản trước đây, Nemo cũng được phát hành dưới giấy phép mở Apache 2.0. Hiện người dùng đã có thể trải nghiệm thử Model mới trên nền tảng Hugging Face.

Tham khảo thêm: