Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).
Khoa học - công nghệ

Dữ liệu đào tạo AI đã cạn kiệt

Cẩm Bình 10/01/2025 12:30

Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).

“Về cơ bản chúng ta đã dùng hết tổng lượng kiến ​​thức tích lũy của con người trong quá trình đào tạo AI. Điều đó xảy ra vào năm ngoái”, tỷ phú Musk phát biểu trong một cuộc trò chuyện phát trực tiếp trên mạng xã hội X.

2025-01-10-122608.png

Phát ngôn trên lặp lại quan điểm mà nhà khoa học AI Ilya Sutskever (từng làm việc cho công ty OpenAI) bày tỏ vào tháng 12.2024. Thời điểm đó chuyên gia này đánh giá ngành đã đạt đến “mức đỉnh dữ liệu”, tình trạng thiếu dữ liệu đòi hỏi phải thay đổi cách thức đào tạo các mô hình trí tuệ nhân tạo.

Theo tỷ phú Musk, dữ liệu tổng hợp (synthetic data) - dữ liệu được tạo ra bởi chính AI - là giải pháp khả thi trong tương lai. Ông nói: “Với dữ liệu tổng hợp, AI sẽ tự phân loại và trải qua quá trình tự học”.

Dữ liệu tổng hợp đang được không ít “ông lớn” công nghệ như Microsoft, Meta, OpenAI, Anthropic sử dụng cho công tác đào tạo các mô hình hàng đầu do họ phát triển. Đơn vị nghiên cứu Gartner ước tính 60% dữ liệu dùng cho số dự án AI và phân tích năm ngoái là dữ liệu tổng hợp.

Chẳng hạn Phi-4 của Microsoft tiếp nhận cả dữ liệu thực tế lẫn dữ liệu tổng hợp. Gemma của Google và Claude 3.5 Sonnet của Anthropic cũng tương tự. Thời gian gần đây Meta bắt đầu nhập dữ liệu tổng hợp cho mô hình Llama.

Đào tạo bằng dữ liệu tổng hợp có nhiều lợi ích, đặc biệt là tiết kiệm chi phí. Công ty khởi nghiệp AI Writer cho biết mô hình Palmyra X 004 của mình chỉ tốn 700.000 USD để phát triển khi sử dụng dữ liệu tổng hợp.

Tuy nhiên loại dữ liệu này cũng tồn tại rủi ro. Một số nghiên cứu chỉ ra dữ liệu tổng hợp có thể dẫn đến hiện tượng “sụp đổ mô hình” (model collapse) – mô hình AI trở nên kém sáng tạo hơn và có xu hướng thiên lệch trong đầu ra. Nguyên nhân do dữ liệu tổng hợp chứa đựng thiên kiến lẫn hạn chế từ chính mô hình tạo ra nó, dẫn đến dữ liệu đầu ra bị ảnh hưởng.

Bài liên quan
Quốc hội sẽ chất vấn về vấn đề tài chính, giáo dục - đào tạo
Tuần làm việc thứ 6 của kỳ họp thứ 9 (từ ngày 16 - 20.6), Quốc hội sẽ tập trung cho công tác lập hiến, lập pháp và giám sát.

(0) Bình luận
Nổi bật Một thế giới
Quốc hội thảo luận dự thảo Nghị quyết cơ chế xử lý khó khăn, vướng mắc do quy định của pháp luật
2 giờ trước Sự kiện
Theo chương trình kỳ họp thứ 9, Quốc hội khóa 15, hôm nay 23.6 Quốc hội thảo luận ở hội trường về dự thảo Nghị quyết cơ chế xử lý khó khăn, vướng mắc do quy định của pháp luật; sau đó tiến hành thảo luận tổ về một số dự án luật.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Dữ liệu đào tạo AI đã cạn kiệt