Llama 3 và GPT-4 là hai trong số các mô hình ngôn ngữ lớn (LLM) tiên tiến nhất hiện có cho công chúng. Hãy xem LLM nào tốt hơn bằng cách so sánh cả hai mô hình về tính đa phương thức, độ dài ngữ cảnh, hiệu suất và chi phí.

Đa phương thức

Việc phát hành GPT-4o cuối cùng đã mang lại thông tin ban đầu cho thấy GPT-4 có khả năng đa phương thức. Giờ đây, bạn có thể truy cập các tính năng đa phương thức này bằng cách tương tác với ChatGPT bằng mô hình GPT-4o. Kể từ tháng 6 năm 2024, GPT-4o không có bất kỳ cách tích hợp nào để tạo video và âm thanh. Tuy nhiên, nó có khả năng tạo văn bản và hình ảnh dựa trên đầu vào video và âm thanh.

Llama 3 cũng đang có kế hoạch cung cấp mô hình đa phương thức cho Llama 3 400B sắp ra mắt. Rất có thể nó sẽ tích hợp các công nghệ tương tự với CLIP (Contrast Language-Imager Pre-Training) để tạo ra hình ảnh bằng cách sử dụng các kỹ thuật Zero-shot Learning. Nhưng vì Llama 400B vẫn đang trong quá trình đào tạo nên cách duy nhất để mô hình 8B và 70B tạo ra hình ảnh là sử dụng các tiện ích mở rộng như LLaVa, Visual-LLaMA và LLaMA-VID. Tính đến thời điểm hiện tại, Llama 3 hoàn toàn là một mô hình dựa trên ngôn ngữ có thể lấy văn bản, hình ảnh và âm thanh làm đầu vào để tạo văn bản.

Độ dài ngữ cảnh

Độ dài ngữ cảnh đề cập đến lượng văn bản mà một mô hình có thể xử lý cùng một lúc. Đây là một yếu tố quan trọng khi xem xét khả năng của LLM vì nó quyết định lượng bối cảnh mà mô hình có thể hoạt động khi tương tác với người dùng. Nói chung, độ dài ngữ cảnh cao hơn làm cho LLM tốt hơn vì nó mang lại mức độ mạch lạc, liên tục cao hơn và có thể giảm sự lặp lại lỗi trong quá trình tương tác.

Mô hìnhMô tả dữ liệu đào tạoTham sốĐộ dài ngữ cảnhGQASố lượng tokenHạn chế kiến ​​thức
Llama 3Kết hợp dữ liệu trực tuyến có sẵn công khai8B8k15T+Tháng 3, 2023
Llama 3Kết hợp dữ liệu trực tuyến có sẵn công khai70B8k15T+Tháng 12, 2023

Các mô hình Llama 3 có độ dài ngữ cảnh hiệu quả là 8.000 token (khoảng 6.400 từ). Điều này có nghĩa là mô hình Llama 3 sẽ có bộ nhớ ngữ cảnh khoảng 6.400 từ trong tương tác. Bất kỳ từ nào vượt quá giới hạn 8.000 token sẽ bị lãng quên và không cung cấp thêm bất kỳ ngữ cảnh nào trong quá trình tương tác.

Mô hìnhMô tảCửa sổ ngữ cảnhDữ liệu đào tạo
GPT-4oModel đa phương thức, rẻ và nhanh hơn GPT-4 Turbo128.000 token (API)Up to Oct 2023
GPT-4-TurboModel GPT-4 Turbo được sắp xếp hợp lý với khả năng quan sát.128.000 token (API)Up to Dec 2023
GPT-4Model GPT-4 đầu tiên8.192 tokenUp to Sep 2021

Ngược lại, GPT-4 hiện hỗ trợ độ dài ngữ cảnh lớn hơn đáng kể với 32.000 token (khoảng 25.600 từ) cho người dùng ChatGPT và 128.000 token (khoảng 102.400 từ) cho những người sử dụng endpoint API. Điều này mang lại lợi thế cho mô hình GPT-4 trong việc quản lý các cuộc hội thoại mở rộng và khả năng đọc tài liệu dài hoặc thậm chí đọc hết toàn bộ cuốn sách.

Hiệu suất

Hãy so sánh hiệu suất bằng cách xem báo cáo benchmark Llama 3 ngày 18 tháng 4 năm 2024 từ Meta AI và GPT-4 ngày 14 tháng 5 năm 2024, báo cáo GitHub của OpenAI. Dưới đây là kết quả:

Mô hìnhMMLUGPQAMATHHumanEvalDROP
GPT-4o88.753.676.690.283.4
GPT-4 Turbo86.549.172.287.685.4
Llama3 8B68.434.230.062.258.4
Llama3 70B82.039.550.481.779.7
Llama3 400B86.148.057.884.183.5

Đây là những gì mỗi tiêu chí đánh giá:

  • MMLU (Massive Multitask Language Understanding): Đánh giá khả năng hiểu và trả lời các câu hỏi của mô hình về nhiều chủ đề học thuật.
  • GPTQA (General Purpose Question Answering): Đánh giá kỹ năng của mô hình trong việc trả lời các câu hỏi thực tế trong domain mở
  • MATH: Kiểm tra khả năng giải các bài toán của mô hình.
  • HumanEval: Đo lường khả năng của mô hình trong việc tạo code chính xác dựa trên prompt lập trình nhất định của con người.
  • DROP (Discrete Reasoning Over Paragraphs): Đánh giá khả năng của mô hình trong việc thực hiện lý luận rời rạc và trả lời các câu hỏi dựa trên những đoạn văn bản.

Các benchmark gần đây nêu bật sự khác biệt về hiệu suất giữa mô hình GPT-4 và Llama 3. Mặc dù mô hình Llama 3 8B dường như tụt lại phía sau đáng kể, nhưng mô hình 70B và 400B cho kết quả thấp hơn nhưng tương tự với cả hai mô hình GPT-4o và GPT-4 Turbo về mặt kiến ​​thức học thuật và kiến ​​thức tổng quát, khả năng đọc và hiểu, lý luận và logic, cũng như mã hóa. Tuy nhiên, chưa có mô hình Llama 3 nào đạt được hiệu suất của GPT-4 về mặt toán học thuần túy.

Giá cả

Chi phí là một yếu tố quan trọng đối với nhiều người dùng. Mô hình GPT-4o của OpenAI được cung cấp miễn phí cho tất cả người dùng ChatGPT với giới hạn 16 message cứ sau 3 giờ. Nếu cần nhiều hơn, bạn sẽ phải đăng ký ChatGPT Plus với chi phí 20 USD/tháng để mở rộng giới hạn message của GPT-4o lên 80, đồng thời có quyền truy cập vào các mô hình GPT-4 khác.

Mặt khác, cả hai mô hình Llama 3 8B và 70B đều là nguồn mở và miễn phí, đây có thể là lợi thế đáng kể cho các nhà phát triển và nhà nghiên cứu đang tìm kiếm giải pháp tiết kiệm chi phí mà không ảnh hưởng đến hiệu suất.

Khả năng tiếp cận

Các mô hình GPT-4 có thể truy cập rộng rãi thông qua chatbot Generative AI ChatGPT của OpenAI và thông qua API của nó. Bạn cũng có thể sử dụng GPT-4 trên Microsoft Copilot, đây là một cách để sử dụng GPT-4 miễn phí. Tính khả dụng rộng rãi này đảm bảo rằng người dùng có thể dễ dàng tận dụng khả năng của nó trong các trường hợp sử dụng khác nhau. Ngược lại, Llama 3 là một dự án nguồn mở cung cấp tính linh hoạt của mô hình và khuyến khích thử nghiệm và cộng tác rộng rãi hơn trong cộng đồng AI. Cách tiếp cận truy cập mở này có thể dân chủ hóa công nghệ AI, giúp nó có sẵn cho nhiều đối tượng hơn.

Mặc dù cả hai mô hình đều có sẵn nhưng GPT-4 dễ sử dụng hơn nhiều vì được tích hợp vào các công cụ và dịch vụ năng suất phổ biến. Mặt khác, Llama 3 chủ yếu được tích hợp vào các nền tảng nghiên cứu và kinh doanh như Amazon Bedrock, Ollama và DataBricks (ngoại trừ hỗ trợ trò chuyện Meta AI), điều này không thu hút được thị trường lớn hơn gồm những người dùng không rành về kỹ thuật.

GPT-4 hay Llama 3 tốt hơn?

Vậy LLM nào tốt hơn? GPT-4 là LLM tốt hơn. GPT-4 vượt trội về đa phương thức với các khả năng nâng cao trong việc xử lý văn bản, hình ảnh và âm thanh đầu vào, trong khi các tính năng tương tự của Llama 3 vẫn đang được phát triển. GPT-4 cũng cung cấp độ dài ngữ cảnh lớn hơn nhiều và hiệu suất tốt hơn, đồng thời có thể truy cập rộng rãi thông qua các công cụ và dịch vụ phổ biến, khiến GPT-4 trở nên thân thiện hơn với người dùng.

Tuy nhiên, điều quan trọng cần nhấn mạnh là các mô hình Llama 3 đã hoạt động rất tốt đối với một dự án nguồn mở và miễn phí. Do đó, Llama 3 vẫn là một LLM nổi bật, được các nhà nghiên cứu và doanh nghiệp ưa chuộng vì tính chất nguồn mở và miễn phí, đồng thời cung cấp hiệu suất ấn tượng, tính linh hoạt và những tính năng bảo mật đáng tin cậy. Mặc dù người tiêu dùng nói chung có thể không tìm thấy cách sử dụng Llama 3 ngay lập tức nhưng nó vẫn là lựa chọn khả thi nhất đối với nhiều nhà nghiên cứu và doanh nghiệp.

Tóm lại, mặc dù GPT-4 nổi bật nhờ khả năng đa phương thức tiên tiến, độ dài ngữ cảnh lớn hơn và tích hợp liền mạch vào các công cụ được sử dụng rộng rãi, Llama 3 cung cấp một giải pháp thay thế có giá trị với tính chất nguồn mở, cho phép tùy chỉnh nhiều hơn và tiết kiệm chi phí. Vì vậy, về mặt ứng dụng, GPT-4 lý tưởng cho những ai tìm kiếm khả năng dễ sử dụng và các tính năng toàn diện trong một mô hình, trong khi Llama 3 rất phù hợp cho các nhà phát triển và nhà nghiên cứu đang tìm kiếm sự linh hoạt và khả năng thích ứng.

Tham khảo thêm: