DeepSeek, công ty trí tuệ nhân tạo (AI) hàng đầu của Trung Quốc, đã gây bất ngờ khi công bố nghiên cứu về mô hình DeepSeek-V3 thay vì thông tin về DeepSeek-R2 như kỳ vọng. Trong khi đó, CEO Wenfeng Liang giữ im lặng về hướng đi tiếp theo của công ty.
Thế giới số

DeepSeek im lặng với phiên bản R2, âm thầm chuẩn bị cho V3

Anh Tú 09:56 25/05/2025

DeepSeek, công ty trí tuệ nhân tạo (AI) hàng đầu của Trung Quốc, đã gây bất ngờ khi công bố nghiên cứu về mô hình DeepSeek-V3 thay vì thông tin về DeepSeek-R2 như kỳ vọng. Trong khi đó, CEO Wenfeng Liang giữ im lặng về hướng đi tiếp theo của công ty.

r2.jpeg
Phiên bản DeepSeek R2 có thể sớm bị thay thế

DeepSeek-V3, được phát hành dưới giấy phép MIT (một loại giấy phép phần mềm tự do và mã nguồn mở) vào ngày 24.3, tập trung vào việc cải thiện hiệu suất suy luận và giảm chi phí huấn luyện, với chi phí chỉ 6 triệu USD. Trước đó, DeepSeek-R2, có chi phí huấn luyện dưới 5 triệu USD, thấp hơn đáng kể so với DeepSeek-R1 (10 triệu USD) và chỉ bằng 5% chi phí huấn luyện của GPT-4 của OpenAI (100 triệu USD năm 2023).

Mô hình này sử dụng kiến trúc tương tự V2 nhưng bổ sung khả năng dự đoán đa mã thông báo (multi-token prediction), cho phép xử lý nhanh hơn nhưng với độ chính xác thấp hơn tùy chọn, đồng thời mở rộng độ dài ngữ cảnh từ 4K lên 128K thông qua phương pháp YaRN.

DeepSeek-V3 được huấn luyện trên 14,8 nghìn tỉ mã thông báo đa ngôn ngữ, với tỷ lệ dữ liệu toán học và lập trình cao hơn so với V2, nhằm nâng cao khả năng suy luận logic và lập trình.

Trong khi đó, Wenfeng Liang, CEO của DeepSeek, đã không đề cập đến DeepSeek-R2 – mô hình được kỳ vọng ra mắt vào tháng 5 theo kế hoạch ban đầu, từng được nhắc đến trong bài viết trên deep-seek.chat ngày 21.3.

R2, được dự đoán sẽ mang lại những cải tiến vượt bậc về khả năng lập luận đa ngôn ngữ và hiệu quả tính toán, đã gây tò mò lớn trong ngành sau thành công của R1, mô hình khiến thị trường chứng khoán toàn cầu chao đảo với mức bán tháo 1 nghìn tỉ USD vào đầu năm 2025.

Sự im lặng của Liang về R2 làm dấy lên nhiều đồn đoán, đặc biệt khi DeepSeek đang phải đối mặt với áp lực từ các hạn chế công nghệ của Mỹ, đặc biệt liên quan đến chip Nvidia. Việc công bố nghiên cứu V3 thay vì R2 cũng cho thấy DeepSeek có thể đang điều chỉnh chiến lược để tập trung vào các cải tiến dài hạn, đồng thời tránh sự chú ý từ các đối thủ và các cơ quan quản lý quốc tế.

Bài liên quan
Huawei vượt mặt Nvidia trong bài kiểm tra chạy mô hình DeepSeek R1?
Huawei đang nâng tầm cuộc chơi trong mảng phần cứng AI, bất chấp các lệnh cấm từ Mỹ. Mới đây, hệ thống CloudMatrix 384, sử dụng chip Ascend do chính Huawei phát triển, đã vượt qua các bộ xử lý AI hàng đầu của Nvidia trong một bài kiểm tra hiệu năng quan trọng.

(0) Bình luận
Nổi bật Một thế giới
Số hóa Bảo tàng Báo chí - dấu ấn công nghệ với báo chí Việt Nam
4 phút trước Khoa học - công nghệ
Hội Báo toàn quốc 2025 đánh dấu bước tiến đột phá trong chuyển đổi số của ngành báo chí Việt Nam. Tại đây, lần đầu tiên công nghệ thực tế ảo VR360 đã số hóa toàn bộ không gian Bảo tàng Báo chí Việt Nam, mở ra một cách trải nghiệm lịch sử mới mẻ.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
DeepSeek im lặng với phiên bản R2, âm thầm chuẩn bị cho V3