Huawei bác tin mô hình ngôn ngữ lớn Pangu Pro MoE sao chép Qwen 2.5-14B của Alibaba
Nhịp đập khoa học - Ngày đăng : 17:24, 07/07/2025
Huawei bác tin mô hình ngôn ngữ lớn Pangu Pro MoE sao chép Qwen 2.5-14B của Alibaba
Noah Ark Lab, bộ phận nghiên cứu trí tuệ nhân tạo (AI) thuộc Huawei, bác bỏ cáo buộc rằng mô hình ngôn ngữ lớn Pangu Pro MoE đã sao chép các yếu tố từ Qwen 2.5-14B của Alibaba. Họ nói mô hình này được phát triển và huấn luyện một cách độc lập.
Noah Ark Lab đưa ra tuyên bố trên sau khi thực thể có tên HonestAGI đăng một bài viết bằng tiếng Anh lên nền tảng chia sẻ mã nguồn Github, cho rằng Pangu Pro MoE thể hiện “mức độ tương đồng bất thường” với Qwen 2.5 14B.
Bài viết của HonestAGI cho rằng điều đó gợi ý Pangu Pro MoE được “tái chế nâng cấp” (tinh chỉnh để có chất lượng cao hơn) từ mô hình khác chứ không phải huấn luyện từ đầu, khiến cộng đồng AI và giới truyền thông công nghệ Trung Quốc xôn xao.
Theo bài viết của HonestAGI, những phát hiện này cho thấy có thể đã xảy ra vi phạm bản quyền, bịa đặt thông tin trong các báo cáo kỹ thuật và đưa ra tuyên bố sai lệch về mức đầu tư của Huawei vào việc huấn luyện mô hình ngôn ngữ lớn.
Trong tuyên bố của mình, Noah Ark Lab khẳng định Pangu Pro MoE “không dựa trên việc huấn luyện kế thừa từ các mô hình của nhà sản xuất khác” và họ đã “thực hiện những đổi mới quan trọng trong thiết kế kiến trúc cùng các tính năng kỹ thuật”. Noah Ark Lab còn cho biết đây là mô hình ngôn ngữ lớn đầu tiên được xây dựng hoàn toàn trên chip AI Ascend của Huawei.
Ngoài ra, Noah Ark Lab tuyên bố đội ngũ phát triển nghiêm túc tuân thủ các yêu cầu giấy phép mã nguồn mở với bất kỳ đoạn mã bên thứ ba nào được sử dụng, nhưng không nêu rõ đã tham khảo những mô hình mã nguồn mở nào.
Theo Noah Ark Lab, Pangu Pro MoE được phát triển bằng kiến trúc Mixture of Experts (MoE hay tổ hợp các chuyên gia). MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các expert (chuyên gia), mỗi expert tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.
Alibaba chưa đưa ra phản hồi ngay lập tức khi hãng tin Reuters đề nghị bình luận. Reuters không thể liên hệ với HonestAGI hoặc xác minh danh tính của thực thể này.

Việc công ty khởi nghiệp DeepSeek (Trung Quốc) phát hành mô hình AI suy luận mã nguồn mở R1 hồi tháng 1 với hiệu suất cao ngang ngửa các sản phẩm của OpenAI, Google nhưng chi phí huấn luyện thấp hơn nhiều đã gây chấn động Thung lũng Silicon (Mỹ). Sự kiện này cũng châm ngòi cho cuộc cạnh tranh gay gắt giữa các hãng công nghệ lớn Trung Quốc nhằm cung cấp các mô hình AI có sức cạnh tranh.
Được phát hành vào tháng 5.2024, Qwen 2.5-14B là một trong những mô hình AI nhỏ thuộc dòng Qwen 2.5 của Alibaba, có thể triển khai trên máy tính cá nhân (PC) và smartphone.
Huawei đã bước chân vào lĩnh vực mô hình ngôn ngữ lớn từ sớm với phiên bản Pangu gốc vào năm 2021. Song kể từ đó, gã khổng lồ viễn thông Trung Quốc bị đánh giá là tụt hậu so với các đối thủ.
Cuối tháng 6, Huawei đã mở mã nguồn Pangu Pro MoE trên nền tảng GitCode dành cho nhà phát triển Trung Quốc. Động thái này nhằm thúc đẩy việc áp dụng công nghệ AI của Huawei bằng cách cung cấp quyền truy cập miễn phí cho các nhà phát triển.
Khác với Qwen vốn hướng tới người tiêu dùng và có dịch vụ chatbot AI giống ChatGPT, các mô hình Pangu của Huawei thường được sử dụng nhiều hơn trong chính phủ cũng như lĩnh vực tài chính và sản xuất.
Huawei khoe có phương pháp huấn luyện AI tốt hơn DeepSeek nhờ chip Ascend
Đầu tháng 6, các nhà nghiên cứu đang làm việc trên mô hình ngôn ngữ lớn Pangu của Huawei cho biết họ đã cải tiến phương pháp huấn luyện AI ban đầu của DeepSeek bằng cách tận dụng chip Ascend độc quyền thuộc công ty.
Một bài viết của nhóm nghiên cứu Pangu đã giới thiệu khái niệm Mixture of Grouped Experts (MoGE - tổ hợp các chuyên gia theo nhóm). Đây là phiên bản nâng cấp cho kỹ thuật MoE, vốn đóng vai trò then chốt trong các mô hình AI tiết kiệm chi phí của DeepSeek.
Theo bài viết của Huawei, dù MoE giúp tiết kiệm tài nguyên điện toán với các mô hình AI có số lượng tham số lớn và khả năng học tăng cường, nhưng kỹ thuật này thường dẫn đến sự không hiệu quả trong việc thực thi. Nguyên nhân là do việc kích hoạt không đồng đều các expert, khiến hiệu suất giảm khi chạy song song trên nhiều thiết bị.
Theo các nhà nghiên cứu của Huawei, MoGE cải tiến bằng cách “gom các expert lại trong quá trình lựa chọn và phân bổ khối lượng công việc tốt hơn”.
Trong huấn luyện AI, expert đề cập đến các mô hình con hoặc thành phần chuyên biệt trong một mô hình lớn hơn, mỗi cái được thiết kế để xử lý một nhiệm vụ cụ thể hoặc loại dữ liệu riêng biệt. Điều này giúp hệ thống tổng thể tận dụng chuyên môn đa dạng để nâng cao hiệu suất.
1. Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.
Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.
2. Học tăng cường là phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.
Bước tiến từ Huawei đến vào thời điểm quan trọng, khi các công ty AI Trung Quốc đang tập trung vào việc cải thiện hiệu suất huấn luyện và suy luận của mô hình thông qua cải tiến thuật toán, cũng như sự kết hợp chặt chẽ giữa phần cứng và phần mềm, bất chấp các hạn chế từ Mỹ trong việc xuất khẩu các chip AI tiên tiến như của Nvidia.
Các nhà nghiên cứu Huawei đã thử nghiệm kiến trúc mới này trên bộ xử lý thần kinh (NPU) Ascend - chip được thiết kế để tăng tốc các tác vụ AI. Họ nhận thấy rằng MoGE “giúp cân bằng khối lượng công việc giữa các expert tốt hơn, thực thi hiệu quả hơn cho cả huấn luyện và suy luận mô hình”.
So với các mô hình AI như DeepSeek-V3, Qwen2.5-72B của Alibaba và Llama-405B của Meta Platforms, Pangu đạt được hiệu suất hàng đầu trong hầu hết bài kiểm tra tiếng Anh tổng quát và tất cả bài kiểm tra tiếng Trung, đồng thời cho thấy hiệu quả cao hơn trong huấn luyện ngữ cảnh dài (xử lý và hiểu được những đoạn văn bản rất dài), theo bài viết.
Các nhà nghiên cứu Huawei cũng cho biết Pangu vượt trội trong các nhiệm vụ hiểu ngôn ngữ tổng quát, đặc biệt là tác vụ suy luận.
Tiến bộ của Huawei trong kiến trúc mô hình AI có thể mang tính đột phá, khi công ty có trụ sở tại thành phố Thâm Quyến (Trung Quốc) đang tìm cách giảm sự phụ thuộc vào công nghệ Mỹ trong bối cảnh các lệnh trừng phạt vẫn tiếp diễn. Chip AI Ascend của Huawei được xem là lựa chọn thay thế trong nước cho một số sản phẩm Nvidia.
Pangu Ultra, mô hình ngôn ngữ lớn với 135 tỉ tham số được tối ưu hóa cho NPU, là minh chứng rõ ràng cho hiệu quả của những cải tiến kiến trúc và hệ thống từ Huawei.
Theo Huawei, quá trình huấn luyện gồm ba giai đoạn chính: Tiền huấn luyện, mở rộng ngữ cảnh dài và hậu huấn luyện. Điều này liên quan đến tiền huấn luyện với 13.200 tỉ token và mở rộng ngữ cảnh dài bằng 8.192 chip Ascend.
Các nhà nghiên cứu cho biết mô hình và hệ thống này sẽ sớm được cung cấp cho khách hàng thương mại của Huawei.
Trong AI, token là đơn vị nhỏ nhất của văn bản, như một từ, dấu câu hoặc thậm chí là một phần của từ (tùy theo cách xử lý).
Mở rộng ngữ cảnh dài nghĩa là tăng khả năng ghi nhớ và xử lý văn bản dài hơn trong một lần tương tác của mô hình AI.