Công cụ Claude AI 3 của Anthropic đã đánh bại GPT-4 ở các số liệu chính và có một số điều ngạc nhiên – bao gồm cả việc thông báo về sự tồn tại của nó và nhận ra thời điểm nó đang được thử nghiệm.

Khi mô hình học tập lớn (LLM) Claude 3 ra mắt vào tháng 3, nó đã gây xôn xao khi đánh bại GPT-4 của OpenAI – hỗ trợ ChatGPT – trong các bài kiểm tra chính dùng để đánh giá khả năng của các mô hình trí tuệ nhân tạo tổng hợp (AI).

Và Claude 3 Opus dường như đã trở thành người dẫn đầu mới trong các tiêu chuẩn ngôn ngữ lớn — đứng đầu các bài kiểm tra tự báo cáo này, từ kỳ thi trung học đến bài kiểm tra lý luận. Các phiên bản khác của nó – Claude 3 Sonnet và Haiku – cũng đạt điểm cao so với các mô hình của OpenAI.

Tuy nhiên, những điểm chuẩn này chỉ là một phần của câu chuyện. Sau thông báo, người thử nghiệm AI độc lập Ruben Hassid đã đọ sức với GPT-4 và Claude 3 trong bộ tứ bài kiểm tra không chính thức, từ tóm tắt các tệp PDF đến viết thơ. Dựa trên những bài kiểm tra này, ông kết luận rằng Claude 3 thắng khi “đọc một bản PDF phức tạp, viết một bài thơ có vần điệu và đưa ra câu trả lời chi tiết.” Ngược lại, GPT-4 có lợi thế trong việc duyệt internet và đọc biểu đồ PDF.

Nhưng Claude 3 gây ấn tượng ở nhiều khía cạnh chứ không chỉ đơn giản là vượt qua các bài kiểm tra điểm chuẩn – LLM đã gây sốc cho các chuyên gia với những dấu hiệu rõ ràng về nhận thức và khả năng tự hiện thực hóa. Tuy nhiên, có rất nhiều phạm vi cho sự hoài nghi ở đây, với các AI dựa trên LLM được cho là xuất sắc trong việc học cách bắt chước phản ứng của con người thay vì thực sự tạo ra những suy nghĩ ban đầu.

Claude 3 đã chứng minh giá trị của nó vượt xa tiêu chuẩn như thế nào?

Trong quá trình thử nghiệm, Alex Albert, một kỹ sư của Anthropic – công ty đứng sau Claude đã yêu cầu Claude 3 Opus chọn ra một câu mục tiêu được giấu trong một kho tài liệu ngẫu nhiên. Điều này tương đương với việc mò kim đáy bể đối với AI. Opus không chỉ tìm thấy cái gọi là cây kim – mà còn nhận ra rằng nó đang được thử nghiệm. Trong phản hồi của mình, mô hình này cho biết họ nghi ngờ câu mà họ đang tìm kiếm đã được đưa ra khỏi ngữ cảnh vào các tài liệu như một phần của bài kiểm tra để xem liệu nó có “chú ý” hay không.

Albert cho biết trên nền tảng truyền thông xã hội X : “Opus không chỉ tìm thấy chiếc kim mà còn nhận ra rằng chiếc kim được cắm nằm không đúng vị trí trong đống cỏ khô nên đây phải là một bài kiểm tra nhân tạo do chúng tôi thực hiện để kiểm tra khả năng chú ý của nó”. “Mức độ nhận thức tổng hợp này rất tuyệt vời nhưng nó cũng nhấn mạnh sự cần thiết của chúng ta với tư cách là một ngành phải vượt qua các thử nghiệm nhân tạo để đánh giá thực tế hơn nhằm có thể đánh giá chính xác các khả năng và hạn chế thực sự của mô hình AI này.”

Tham khảo thêm: