Đột phá

Alibaba nâng cấp mô hình Qwen3, vượt OpenAI lẫn DeepSeek về giải toán và lập trình

Sơn Vân • 22/07/2025 18:24

Một thành viên trong dòng mô hình Qwen3 vừa được Alibaba nâng cấp để vượt qua sản phẩm trí tuệ nhân tạo (AI) của OpenAI lẫn DeepSeek.

Gã khổng lồ thương mại điện tử Alibaba (Trung Quốc) vừa công bố phiên bản nâng cấp cho dòng mô hình ngôn ngữ lớn thế hệ thứ ba Qwen3, với một thành viên đạt điểm số cao hơn trong các bài kiểm tra toán học và lập trình so với sản phẩm của OpenAI (Mỹ) và DeepSeek.

Mô hình mã nguồn mở mới là Qwen3-235B-A22B-Instruct-2507-FP8, đạt “những cải tiến đáng kể về năng lực tổng quát, gồm khả năng làm theo hướng dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ”, theo cập nhật hôm 22.7 trên HuggingFace và ModelScope.

Hugging Face là nền tảng phát triển AI nổi tiếng thế giới, đặc biệt tập trung vào xử lý ngôn ngữ tự nhiên và học máy.

ModelScope là nền tảng mã nguồn mở chuyên về AI, được phát triển bởi Alibaba Cloud – đơn vị điện toán đám mây của Alibaba. Nếu Hugging Face là nơi chia sẻ mô hình AI toàn cầu, ModelScope giống như "Hugging Face phiên bản Trung Quốc" do Alibaba xây dựng, tập trung hơn vào mô hình và công cụ do các công ty, viện nghiên cứu Trung Quốc phát triển, nhưng vẫn mở cho cộng đồng quốc tế.

Qwen3-235B-A22B-Instruct-2507-FP8 vượt qua các đối thủ trong các bài kiểm tra nhất định, chẳng hạn American Invitational Mathematics Examination 2025, khi đạt 70,3 điểm. Để so sánh, DeepSeek-V3-0324 (phiên bản ra mắt tháng 3) đạt 46,6 điểm, còn GPT-4o-0327 của OpenAI chỉ được 26,7 điểm.

American Invitational Mathematics Examination (AIME) là một kỳ thi toán học mời danh giá dành cho học sinh trung học và một số học sinh trung học cơ sở xuất sắc tại Mỹ. Đây là vòng thi thứ hai trong chuỗi các kỳ thi được tổ chức bởi Hiệp hội Toán học Mỹ nhằm tuyển chọn đội tuyển đại diện cho nước này tham gia Olympic Toán học Quốc tế (IMO).

Về khả năng lập trình, Qwen3-235B-A22B-Instruct-2507-FP8 đạt 87,9 điểm theo chuẩn đánh giá MultiPL-E, cao hơn một chút so với 82,2 điểm của DeepSeek-V3-0324 và 82,7 điểm của GPT-4o-0327. Tuy nhiên, mô hình Qwen3 mới từ Alibaba vẫn thua Claude Opus 4 Non-thinking của Anthropic (đạt 88,5 điểm).

Xử lý nội dung dài gấp 8 lần

Qwen3-235B-A22B-Instruct-2507-FP8 là bản nâng cấp từ Qwen3-235B-A22B-FP8, chỉ đưa ra câu trả lời trực tiếp mà không trình bày các bước suy luận (hay chuỗi tư duy) như các mô hình AI khác. Dù vậy, độ dài nội dung mà Qwen3-235B-A22B-Instruct-2507-FP8 xử lý được đã tăng gấp 8 lần, đạt 256.000 token. Điều này giúp mô hình Qwen3 mới của Alibaba xử lý các đoạn văn bản rất dài chỉ trong một cuộc hội thoại.

Trong AI, token là đơn vị nhỏ nhất của văn bản, như một từ, dấu câu hoặc thậm chí là một phần của từ (tùy theo cách xử lý).

alibaba-nang-cap-mo-hinh-qwen3-vuot-openai-lan-deepseek-ve-toan-va-lap-trinh.webp — Qwen3-235B-A22B-Instruct-2507-FP8 vượt DeepSeek-V3-0324 cùng GPT-4o-0327 của OpenAI về khả năng giải toán và lập trình - Ảnh: Internet

Cũng trong ngày 22.7, Alibaba cho biết một mô hình Qwen với 3 tỉ tham số sẽ được tích hợp vào trợ lý thông minh Xiaowei Hui trên các máy tính cá nhân của hãng HP tại Trung Quốc, giúp tăng cường khả năng như soạn thảo văn bản và tóm tắt cuộc họp.

Ra mắt vào cuối tháng 4, dòng Qwen3 với kích thước từ 600 triệu đến 235 tỉ tham số hiện nằm trong nhóm mô hình AI mạnh nhất thế giới. Qwen3-235B-A22B-Non-thinking được xếp hạng mô hình AI mã nguồn mở tốt thứ ba thế giới, chỉ sau Kimi K2 của Moonshot AI và DeepSeek R1-0528 (phiên bản nâng cấp của mô hình suy luận R1, trình làng cuối tháng 5), theo báo cáo tuần trước của nền tảng đánh giá LMArena (Mỹ).

Theo bảng xếp hạng riêng biệt từ Hugging Face hồi tháng trước, 3 trong số 4 mô hình AI Trung Quốc lọt vào top 10 đều đến từ dòng Qwen.

Cuối tháng 5, DeepSeek tuyên bố R1-0528 đạt được hiệu năng ngang ngửa các mô hình AI hàng đầu toàn cầu của OpenAI và Google. Công ty khởi nghiệp có trụ sở ở thành phố Hàng Châu (Trung Quốc) nhấn mạnh về những cải tiến về khả năng suy luận và viết sáng tạo của R1-0528, giúp mô hình này giỏi hơn trong việc viết các bài văn nghị luận, tiểu thuyết và văn xuôi theo phong cách gần giống các tác giả là con người. Theo DeepSeek, khả năng lập trình của R1-0528 cũng được nâng cao.

DeepSeek cho biết R1-0528 đã giảm 50% hiện tượng “ảo giác”, tức mô hình AI tạo ra thông tin sai lệch, không dựa trên cơ sở thực tế.

Theo DeepSeek, những cải tiến này đạt được nhờ việc đầu tư thêm tài nguyên điện toán vào giai đoạn hậu huấn luyện (thời điểm các nhà phát triển thực hiện những điều chỉnh cuối cùng sau quá trình huấn luyện chính). Hậu huấn luyện thường tập trung vào việc nâng cao hiệu quả, tính an toàn và độ chính xác của nội dung.

“Phiên bản R1 được cập nhật đã vượt trội các mô hình AI trong nước ở nhiều bài kiểm tra chuẩn, gồm toán học, lập trình và tư duy logic tổng quát, và sánh ngang những mô hình hàng đầu toàn cầu như o3 của OpenAI và Gemini 2.5 Pro của Google”, DeepSeek tuyên bố.

Ở chuyến thăm Trung Quốc tuần trước, Jensen Huang (Giám đốc điều hành Nvidia) đã ca ngợi sự tiến bộ của nước này ở lĩnh vực AI mã nguồn mở, khi gã khổng lồ chip Mỹ chuẩn bị nối lại việc giao chip H20 sang một trong những thị trường lớn nhất với hãng. Động thái này diễn ra sau bước đột phá trong đàm phán thương mại Mỹ - Trung hồi tháng 6.

Ông Jensen Huang nhận định rằng Qwen của Alibaba, DeepSeek-R1 và Kimi của Moonshot AI là “những mô hình suy luận nguồn mở tốt nhất thế giới hiện nay” và đều “rất tiên tiến”.

Huawei bác tin sao chép Qwen 2.5-14B của Alibaba

Noah Ark Lab, bộ phận nghiên cứu AI thuộc Huawei, đầu tháng 7 đã bác bỏ cáo buộc rằng mô hình ngôn ngữ lớn Pangu Pro MoE đã sao chép các yếu tố từ Qwen 2.5-14B của Alibaba. Họ nói mô hình này được phát triển và huấn luyện một cách độc lập.

Noah Ark Lab đưa ra tuyên bố trên sau khi thực thể có tên HonestAGI đăng một bài viết bằng tiếng Anh lên nền tảng chia sẻ mã nguồn Github, cho rằng Pangu Pro MoE thể hiện “mức độ tương đồng bất thường” với Qwen 2.5 14B.

Bài viết của HonestAGI cho rằng điều đó gợi ý Pangu Pro MoE được “tái chế nâng cấp” (tinh chỉnh để có chất lượng cao hơn) từ mô hình khác chứ không phải huấn luyện từ đầu, khiến cộng đồng AI và giới truyền thông công nghệ Trung Quốc xôn xao.

Theo bài viết của HonestAGI, những phát hiện này cho thấy có thể đã xảy ra vi phạm bản quyền, bịa đặt thông tin trong các báo cáo kỹ thuật và đưa ra tuyên bố sai lệch về mức đầu tư của Huawei vào việc huấn luyện mô hình ngôn ngữ lớn.

Noah Ark Lab khẳng định Pangu Pro MoE “không dựa trên việc huấn luyện kế thừa từ các mô hình của nhà sản xuất khác” và họ đã “thực hiện những đổi mới quan trọng trong thiết kế kiến trúc cùng các tính năng kỹ thuật”. Noah Ark Lab còn cho biết đây là mô hình ngôn ngữ lớn đầu tiên được xây dựng hoàn toàn trên chip AI Ascend của Huawei.

Ngoài ra, Noah Ark Lab tuyên bố đội ngũ phát triển nghiêm túc tuân thủ các yêu cầu giấy phép mã nguồn mở với bất kỳ đoạn mã bên thứ ba nào được sử dụng, nhưng không nêu rõ đã tham khảo những mô hình mã nguồn mở nào.

Theo Noah Ark Lab, Pangu Pro MoE được phát triển bằng kiến trúc Mixture of Experts (MoE hay tổ hợp các chuyên gia). MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các expert (chuyên gia), mỗi expert tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Reuters không thể liên hệ với HonestAGI hoặc xác minh danh tính của thực thể này.

Việc công ty khởi nghiệp DeepSeek (Trung Quốc) phát hành mô hình AI suy luận mã nguồn mở R1 hồi tháng 1 với hiệu suất cao ngang ngửa các sản phẩm của OpenAI, Google nhưng chi phí huấn luyện thấp hơn nhiều đã gây chấn động Thung lũng Silicon (Mỹ). Sự kiện này cũng châm ngòi cho cuộc cạnh tranh gay gắt giữa các hãng công nghệ lớn Trung Quốc nhằm cung cấp các mô hình AI có sức cạnh tranh.

Được phát hành vào tháng 5.2024, Qwen 2.5-14B là một trong những mô hình AI nhỏ thuộc dòng Qwen 2.5 của Alibaba, có thể triển khai trên máy tính cá nhân (PC) và smartphone.

Huawei đã bước chân vào lĩnh vực mô hình ngôn ngữ lớn từ sớm với phiên bản Pangu gốc vào năm 2021. Song kể từ đó, gã khổng lồ viễn thông Trung Quốc bị đánh giá là tụt hậu so với các đối thủ.

Cuối tháng 6, Huawei đã mở mã nguồn Pangu Pro MoE trên nền tảng GitCode dành cho nhà phát triển Trung Quốc. Động thái này nhằm thúc đẩy việc áp dụng công nghệ AI của Huawei bằng cách cung cấp quyền truy cập miễn phí cho các nhà phát triển.

Khác với Qwen vốn hướng tới người tiêu dùng và có dịch vụ chatbot AI giống ChatGPT, các mô hình Pangu của Huawei thường được sử dụng nhiều hơn trong chính phủ cũng như lĩnh vực tài chính và sản xuất.