Thế giới số

DeepSeek im lặng với phiên bản R2, âm thầm chuẩn bị cho V3

Anh Tú • 25/05/2025 09:56

DeepSeek, công ty trí tuệ nhân tạo (AI) hàng đầu của Trung Quốc, đã gây bất ngờ khi công bố nghiên cứu về mô hình DeepSeek-V3 thay vì thông tin về DeepSeek-R2 như kỳ vọng. Trong khi đó, CEO Wenfeng Liang giữ im lặng về hướng đi tiếp theo của công ty.

Phiên bản DeepSeek R2 có thể sớm bị thay thế

DeepSeek-V3, được phát hành dưới giấy phép MIT (một loại giấy phép phần mềm tự do và mã nguồn mở) vào ngày 24.3, tập trung vào việc cải thiện hiệu suất suy luận và giảm chi phí huấn luyện, với chi phí chỉ 6 triệu USD. Trước đó, DeepSeek-R2, có chi phí huấn luyện dưới 5 triệu USD, thấp hơn đáng kể so với DeepSeek-R1 (10 triệu USD) và chỉ bằng 5% chi phí huấn luyện của GPT-4 của OpenAI (100 triệu USD năm 2023).

Mô hình này sử dụng kiến trúc tương tự V2 nhưng bổ sung khả năng dự đoán đa mã thông báo (multi-token prediction), cho phép xử lý nhanh hơn nhưng với độ chính xác thấp hơn tùy chọn, đồng thời mở rộng độ dài ngữ cảnh từ 4K lên 128K thông qua phương pháp YaRN.

DeepSeek-V3 được huấn luyện trên 14,8 nghìn tỉ mã thông báo đa ngôn ngữ, với tỷ lệ dữ liệu toán học và lập trình cao hơn so với V2, nhằm nâng cao khả năng suy luận logic và lập trình.

Trong khi đó, Wenfeng Liang, CEO của DeepSeek, đã không đề cập đến DeepSeek-R2 – mô hình được kỳ vọng ra mắt vào tháng 5 theo kế hoạch ban đầu, từng được nhắc đến trong bài viết trên deep-seek.chat ngày 21.3.

R2, được dự đoán sẽ mang lại những cải tiến vượt bậc về khả năng lập luận đa ngôn ngữ và hiệu quả tính toán, đã gây tò mò lớn trong ngành sau thành công của R1, mô hình khiến thị trường chứng khoán toàn cầu chao đảo với mức bán tháo 1 nghìn tỉ USD vào đầu năm 2025.

Sự im lặng của Liang về R2 làm dấy lên nhiều đồn đoán, đặc biệt khi DeepSeek đang phải đối mặt với áp lực từ các hạn chế công nghệ của Mỹ, đặc biệt liên quan đến chip Nvidia. Việc công bố nghiên cứu V3 thay vì R2 cũng cho thấy DeepSeek có thể đang điều chỉnh chiến lược để tập trung vào các cải tiến dài hạn, đồng thời tránh sự chú ý từ các đối thủ và các cơ quan quản lý quốc tế.