Chỉ hơn một năm sau khi ra mắt ChatGPT, AI đang thay đổi cách chúng ta sống, làm việc và học tập. Nó cũng tạo nên những cuộc thảo luận quan trọng về dữ liệu trong thời đại AI. Thông tin thêm về cách tiếp cận của chúng tôi, Trình quản lý phương tiện mới dành cho người sáng tạo nội dung và chủ sở hữu nội dung cũng như mục tiêu chúng tôi hướng tới.

AI nên mở rộng cơ hội cho mọi người

AI nên mở rộng cơ hội cho mọi người. Bằng cách chuyển đổi thông tin theo những cách mới, hệ thống AI giúp chúng ta giải quyết vấn đề và thể hiện bản thân. Ngày nay, các công cụ AI của chúng tôi như ChatGPT đang được sử dụng trên khắp thế giới để giúp nông dân ở Kenya và Ấn Độ tăng năng suất cây trồng ( Digital Green ), các nhà nghiên cứu tăng tốc phát triển thuốc ( Moderna ), chính phủ hỗ trợ lực lượng lao động của họ ( Bang Pennsylvania), các nhà giáo dục nâng cao khả năng học tập của học sinh và những người khiếm thị điều hướng thế giới của chúng ta ( Be My Eyes ). Các công cụ AI như DALL·E và Sora (hiện đang ở giai đoạn xem trước trong nghiên cứu) đang hỗ trợ các nhà sáng tạo từ những nghệ sĩ đầy tham vọng đến các nhà làm phim .

Sứ mệnh của chúng tôi là mang lại lợi ích cho toàn nhân loại. Điều này không chỉ bao gồm người dùng của chúng tôi mà còn bao gồm cả người sáng tạo và nhà xuất bản. Mặc dù chúng tôi tin rằng các tiền lệ pháp lý và chính sách công hợp lý sẽ giúp việc học được sử dụng hợp lý, nhưng chúng tôi cũng cảm thấy rằng điều quan trọng là chúng tôi phải đóng góp vào việc phát triển một hợp đồng xã hội mang lại lợi ích rộng rãi cho nội dung trong thời đại AI. 

Chúng tôi tin rằng hệ thống AI sẽ mang lại lợi ích và tôn trọng lựa chọn của người sáng tạo và chủ sở hữu nội dung. Chúng tôi liên tục cải tiến các hệ thống đầu ngành của mình để phản ánh sở thích của chủ sở hữu nội dung và tận tâm xây dựng các sản phẩm cũng như mô hình kinh doanh nhằm thúc đẩy hệ sinh thái sôi động cho người sáng tạo và nhà xuất bản.

Chúng tôi không phải là nhà văn, nghệ sĩ hay nhà báo chuyên nghiệp, chúng tôi cũng không kinh doanh những ngành nghề đó. Chúng tôi tập trung vào việc xây dựng các công cụ để giúp những ngành nghề này sáng tạo và đạt được nhiều thành tựu hơn. Để thực hiện được điều này, chúng tôi lắng nghe và hợp tác chặt chẽ với các thành viên của các cộng đồng này và mong muốn được tiếp tục đối thoại. Hôm nay, chúng tôi sẽ chia sẻ nhiều hơn về vị trí của chúng tôi và nơi chúng tôi hướng tới.

Chúng tôi tôn trọng sự lựa chọn của người sáng tạo và chủ sở hữu nội dung trên AI

Nhiều thập kỷ trước, tiêu chuẩn robots.txt đã được hệ sinh thái Internet giới thiệu và tự nguyện áp dụng cho các nhà xuất bản web để chỉ ra những phần nào của trang web mà trình thu thập dữ liệu web có thể truy cập. 

Mùa hè năm ngoái, OpenAI đã đi tiên phong trong việc sử dụng quyền của trình thu thập dữ liệu web cho AI, cho phép các nhà xuất bản web bày tỏ sở thích của họ về việc sử dụng nội dung của họ trong AI. Chúng tôi tính đến những tín hiệu này mỗi khi đào tạo một mô hình mới. 

Tuy nhiên, chúng tôi hiểu đây là những giải pháp chưa hoàn chỉnh vì nhiều người sáng tạo không kiểm soát các trang web nơi nội dung của họ có thể xuất hiện và nội dung thường được trích dẫn, đánh giá, phối lại, đăng lại và sử dụng làm nguồn cảm hứng trên nhiều miền. Chúng tôi cần một giải pháp hiệu quả, có thể mở rộng để chủ sở hữu nội dung thể hiện sở thích của họ về việc sử dụng nội dung của họ trong hệ thống AI.

Chúng tôi đang xây dựng Trình quản lý phương tiện để chủ sở hữu nội dung có thể quản lý cách sử dụng tác phẩm của họ trong AI

OpenAI đang phát triển Trình quản lý phương tiện, một công cụ cho phép người sáng tạo và chủ sở hữu nội dung cho chúng tôi biết những gì họ sở hữu và chỉ định cách họ muốn đưa tác phẩm của mình vào hoặc loại trừ khỏi nghiên cứu và đào tạo về máy học. Theo thời gian, chúng tôi dự định giới thiệu các lựa chọn và tính năng bổ sung.

Điều này sẽ yêu cầu nghiên cứu máy học tiên tiến để xây dựng một công cụ đầu tiên thuộc loại này nhằm giúp chúng tôi xác định văn bản, hình ảnh, âm thanh và video có bản quyền trên nhiều nguồn và phản ánh sở thích của người sáng tạo. 

Chúng tôi đang cộng tác với người sáng tạo, chủ sở hữu nội dung và cơ quan quản lý khi chúng tôi phát triển Trình quản lý phương tiện. Mục tiêu của chúng tôi là có công cụ này vào năm 2025 và chúng tôi hy vọng nó sẽ đặt ra tiêu chuẩn cho toàn ngành AI.

Chúng tôi đang xây dựng các sản phẩm mang lại lợi ích cho người dùng, người sáng tạo và nhà xuất bản trong một hệ sinh thái sôi động

Ngày nay, chúng ta đang sống trong một nền kinh tế chú ý được xây dựng dành cho các nhà quảng cáo hơn là người dùng và số lượng hơn là chất lượng. Tham vọng của chúng tôi là sử dụng AI để thay đổi điều này: trao quyền cho người sáng tạo và nhà xuất bản cũng như nâng cao trải nghiệm người dùng. 

Chúng tôi liên tục làm cho sản phẩm của mình trở thành công cụ khám phá hữu ích hơn. Gần đây chúng tôi đã cải thiện các liên kết nguồn trong ChatGPT để cung cấp cho người dùng bối cảnh tốt hơn và các nhà xuất bản web những cách mới để kết nối với khán giả của chúng tôi. 

Chúng tôi cũng đang làm việc với các đối tác để hiển thị nội dung của họ trong các sản phẩm của chúng tôi và tăng cường sự kết nối của họ với độc giả. Chúng tôi đã công bố quan hệ đối tác với các nhà xuất bản tin tức toàn cầu từ Financial Times , đến Le Monde , Prisa Media , Axel Springer , v.v., để hiển thị nội dung của họ trong ChatGPT và làm phong phú thêm trải nghiệm của người dùng về các chủ đề tin tức. Nhiều sự đổi mới đang diễn ra. Nội dung này cũng có thể được sử dụng để đào tạo ChatGPT nhằm hiển thị tốt hơn nội dung của nhà xuất bản có liên quan cho người dùng và cải thiện các công cụ của chúng tôi dành cho phòng tin tức. 

Quan hệ đối tác của chúng tôi được xây dựng nhằm mang lại lợi ích cho đối tác và người dùng của họ, giúp các mô hình của chúng tôi trở nên hữu ích hơn cho nhân viên, khách hàng và cộng đồng của họ. Để giúp nâng cao tài nguyên giáo dục, chúng tôi đã hợp tác với tổ chức phi lợi nhuận Khan Academy và ExamSolutions có trụ sở tại Vương quốc Anh để cải thiện hiệu suất toán học của mô hình của chúng tôi, giúp tăng tốc khả năng mở rộng quyền truy cập vào dịch vụ dạy kèm AI được cá nhân hóa trên nền tảng của họ. 

Hiểu các mô hình nền tảng của chúng tôi và cách chúng tôi xây dựng chúng

Chúng tôi thiết kế các mô hình AI của mình để trở thành những cỗ máy học tập chứ không phải cơ sở dữ liệu

Các mô hình AI học hỏi từ các mối quan hệ trong thông tin để tạo ra thứ gì đó mới mẻ; họ không lưu trữ dữ liệu như cơ sở dữ liệu. Khi đào tạo các mô hình ngôn ngữ, chúng tôi lấy hàng nghìn tỷ từ và yêu cầu máy tính đưa ra một phương trình mô tả đúng nhất mối quan hệ giữa các từ và quy trình cơ bản tạo ra chúng. Sau khi quá trình đào tạo hoàn tất, mô hình AI sẽ không giữ quyền truy cập vào dữ liệu được phân tích trong quá trình đào tạo. ChatGPT giống như một giáo viên đã học từ rất nhiều nghiên cứu trước đó và có thể giải thích mọi thứ vì cô ấy đã học được mối quan hệ giữa các khái niệm nhưng không lưu trữ tài liệu trong đầu.  

Các mô hình của chúng tôi được thiết kế để giúp chúng tôi tạo ra nội dung và ý tưởng mới – không lặp lại hoặc “nôn ra” nội dung. Các mô hình AI có thể nêu các sự kiện thuộc phạm vi công cộng. Nếu trong một số trường hợp hiếm hoi, một mô hình vô tình lặp lại nội dung biểu cảm thì đó là lỗi của quá trình học máy. Lỗi này dễ xảy ra hơn với nội dung xuất hiện thường xuyên trong tập dữ liệu huấn luyện, chẳng hạn như nội dung xuất hiện trên nhiều trang web công cộng khác nhau do thường xuyên được trích dẫn. Chúng tôi sử dụng các kỹ thuật tiên tiến trong suốt quá trình đào tạo và ở đầu ra cho API hoặc ChatGPT của mình để ngăn chặn sự lặp lại và chúng tôi liên tục cải tiến bằng quá trình nghiên cứu và phát triển đang diễn ra.

Chúng tôi sử dụng dữ liệu rộng rãi và đa dạng để xây dựng AI tốt nhất cho mọi người

Chúng tôi muốn các mô hình AI của mình học hỏi từ càng nhiều ngôn ngữ, văn hóa, chủ đề và ngành càng tốt để chúng có thể mang lại lợi ích cho nhiều người nhất có thể. Các bộ dữ liệu càng đa dạng thì kiến ​​thức, hiểu biết và ngôn ngữ của mô hình càng trở nên đa dạng – giống như một người đã tiếp xúc với nhiều quan điểm và trải nghiệm văn hóa khác nhau – và AI càng có thể phục vụ nhiều người và quốc gia một cách an toàn hơn. 

Mỗi thế hệ mô hình nền tảng mới đều được đào tạo từ đầu trên một tập dữ liệu mới. Chúng tôi không ngừng cải thiện kiến ​​trúc của mình, đồng thời tăng quy mô và tính đa dạng của bộ dữ liệu vượt xa các mô hình trước đây của chúng tôi một cách đáng kể. Không giống như các công ty lớn hơn trong lĩnh vực AI, chúng tôi không có lượng lớn dữ liệu được thu thập trong nhiều thập kỷ. Chúng tôi chủ yếu dựa vào thông tin có sẵn công khai để dạy các mô hình của mình cách trở nên hữu ích.

Chúng tôi đào tạo các mô hình của mình bằng cách sử dụng:

  • Chọn dữ liệu có sẵn công khai, chủ yếu được thu thập từ bộ dữ liệu máy học và thu thập thông tin trên web theo tiêu chuẩn ngành, tương tự như các công cụ tìm kiếm. Chúng tôi loại trừ các nguồn mà chúng tôi biết là có tường phí, chủ yếu tổng hợp thông tin nhận dạng cá nhân, có nội dung vi phạm chính sách của chúng tôi hoặc đã chọn không tham gia.
  • Dữ liệu độc quyền từ quan hệ đối tác dữ liệu . Chúng tôi hợp tác để truy cập nội dung không được công bố rộng rãi, chẳng hạn như kho lưu trữ và siêu dữ liệu. Các đối tác của chúng tôi bao gồm từ thư viện video tư nhân lớn chứa hình ảnh và video để đào tạo Sora cho đến Chính phủ Iceland nhằm giúp bảo tồn ngôn ngữ mẹ đẻ của họ. Chúng tôi không theo đuổi quan hệ đối tác trả phí để có được thông tin hoàn toàn công khai. 
  • Phản hồi của con người từ các giảng viên AI, đội đỏ, nhân viên và người dùng có cài đặt kiểm soát dữ liệu cho phép cải tiến mô hình.

Chúng tôi chú ý giảm việc xử lý thông tin cá nhân và nhạy cảm, đồng thời chúng tôi huấn luyện các mô hình của mình không cung cấp thông tin riêng tư hoặc nhạy cảm về mọi người. Chúng tôi sử dụng một số kỹ thuật để xử lý dữ liệu thô nhằm sử dụng an toàn trong hoạt động đào tạo và ngày càng sử dụng các mô hình AI để giúp chúng tôi làm sạch, chuẩn bị và tạo dữ liệu. 

Chúng tôi không đào tạo về dữ liệu kinh doanh của khách hàng, bao gồm dữ liệu từ Nhóm ChatGPT, ChatGPT Enterprise hoặc Nền tảng API của chúng tôi. Người dùng ChatGPT Free và Plus có thể kiểm soát xem họ có đóng góp vào việc cải tiến mô hình trong tương lai hay không trong cài đặt của mình

Chúng tôi đang xây dựng quan hệ đối tác

AI phát triển nhanh chóng và chúng tôi biết mục tiêu của mình không thể đạt được một mình. Chúng tôi cam kết cộng tác với những người sáng tạo và nhà xuất bản, tạo ra mối quan hệ đối tác đôi bên cùng có lợi, hỗ trợ hệ sinh thái lành mạnh và khám phá các mô hình kinh tế mới. Chúng tôi cảm ơn người dùng và đối tác đã hợp tác với chúng tôi về những chủ đề quan trọng này.

Nguồn: OpenAI (dịch bởi Gemini)

Tham khảo thêm: