Alibaba đã chính thức ra mắt Qwen VLo, một mô hình ngôn ngữ lớn đa phương thức mới. Mô hình này được thiết kế để nâng cao đáng kể khả năng hiểu và tạo nội dung hình ảnh, mang đến cho người dùng trải nghiệm sáng tạo trực quan tiên tiến hơn.
Thế giới số

Alibaba ra mắt mô hình Qwen VLo chuyên xử lý hình ảnh

An Tú 21:55 28/06/2025

Alibaba đã chính thức ra mắt Qwen VLo, một mô hình ngôn ngữ lớn đa phương thức mới. Mô hình này được thiết kế để nâng cao đáng kể khả năng hiểu và tạo nội dung hình ảnh, mang đến cho người dùng trải nghiệm sáng tạo trực quan tiên tiến hơn.

alibaba.jpeg
Alibaba không đứng ngoài cuộc đua AI

Qwen VLo là một bước nâng cấp mạnh mẽ so với dòng Qwen-VL trước đó. Nó sở hữu phương pháp tạo ảnh theo từng bước, xây dựng hình ảnh dần dần với trọng tâm là đảm bảo chất lượng và tính nhất quán xuyên suốt quá trình tạo. Ngoài ra, Qwen VLo có các tính năng nâng cao để tái tạo nội dung hình ảnh. Mô hình duy trì độ chính xác cao về mặt ngữ nghĩa và cấu trúc khi chỉnh sửa hình ảnh.

Khả năng của Qwen VLo có thể được ứng dụng trong nhiều tình huống thực tế như thay đổi phông nền, chuyển đổi phong cách nghệ thuật, và tạo hình ảnh từ văn bản. Mô hình cũng hỗ trợ nhiều độ phân giải và tỷ lệ khung hình khác nhau, đáp ứng nhu cầu sáng tạo đa dạng.

Hiện tại Qwen VLo đang ở giai đoạn xem trước, đã thể hiện được nhiều chức năng đáng chú ý và hứa hẹn tiềm năng lớn trong lĩnh vực sáng tạo nội dung bằng AI. Tuy nhiên, nhóm phát triển thừa nhận rằng mô hình vẫn có thể gặp giới hạn trong việc tạo ra hình ảnh hoàn toàn chính xác hoặc chân thực trong mọi tình huống, và việc cải tiến vẫn đang được tiếp tục.

Các mô hình đa phương thức đang ngày càng chuyên biệt hóa

Các kết quả đo lường so sánh cho thấy mô hình Qwen đặc biệt vượt trội trong các tác vụ trích xuất dữ liệu chi tiết như hiểu tài liệu và trả lời câu hỏi dựa trên hình ảnh. Trong khi đó, các đối thủ như LLaMA 3.2 lại mạnh hơn ở khả năng hiểu ngữ cảnh và xử lý nhanh hơn.

Khi được so sánh với GPT-4 Vision, QwenVL đã vượt trội trong 5 trên 7 bài kiểm tra chuẩn. Điều đó cho thấy các mô hình khác nhau đang phát triển những lĩnh vực chuyên môn riêng biệt trong không gian AI đa phương thức.

Qwen VLo tận dụng những thế mạnh này thông qua phương pháp tạo ảnh theo trình tự (từ trái sang phải, từ trên xuống dưới), giúp khắc phục vấn đề thiếu nhất quán vốn thường gặp trong các hệ thống AI tạo ảnh.

Xu hướng chuyên môn hóa này lan rộng trong ngành, với các mô hình như Pixtral tập trung vào xử lý đan xen giữa hình ảnh và văn bản còn Phi-4 Multimodal nhấn mạnh khả năng xử lý tổng hợp đầu vào hình ảnh, âm thanh và văn bản.

Khi lĩnh vực AI đa phương thức tiếp tục phát triển, các tổ chức có thể sẽ cần lựa chọn mô hình dựa trên từng trường hợp sử dụng cụ thể, thay vì kỳ vọng vào một mô hình duy nhất có thể làm tốt mọi thứ.

Đánh dấu bước tiến kỹ thuật trong phát triển AI đa phương thức

Cách tiếp cận tạo ảnh theo từng bước của Qwen VLo là một bước tiến kỹ thuật nhằm giải quyết một trong những hạn chế lớn của AI tạo sinh: duy trì tính nhất quán về mặt ngữ nghĩa trong suốt quá trình tạo hình. Phương pháp này giải quyết trực tiếp các vấn đề về ngẫu nhiên hóa mà nhiều chuyên gia AI đã cảnh báo. Đó là khi người dùng thường xuyên gặp phải các chi tiết không mong muốn hoặc thiếu nhất quán trong ảnh được tạo ra.

Bằng cách tối ưu hóa liên tục nội dung được dự đoán trong suốt quá trình tạo ảnh, Qwen VLo nỗ lực giải bài toán duy trì tính toàn vẹn về cấu trúc – điều mà nhiều hệ thống AI tạo ảnh hiện nay vẫn đang gặp khó khăn, đặc biệt khi chỉnh sửa hình ảnh.

Khả năng của mô hình trong việc giữ nguyên các đặc điểm cấu trúc quan trọng trong khi thay đổi các yếu tố như màu sắc hay phong cách cho thấy sự tiến bộ trong việc vượt qua một trở ngại kỹ thuật lớn trong hệ thống tạo ảnh bằng AI.

Cách tiếp cận này cũng phản ánh nỗ lực chung của toàn ngành trong việc cải thiện khả năng kiểm soát và tính nhất quán trong nội dung do AI tạo ra – vốn là một rào cản chính đối với việc áp dụng công cụ này ở cấp độ chuyên nghiệp.

Khả năng đa ngôn ngữ trở nên thiết yếu để phủ sóng toàn cầu

Việc Qwen VLo hỗ trợ lệnh bằng nhiều ngôn ngữ, bao gồm cả tiếng Trung và tiếng Anh, phản ánh nhận thức ngày càng rõ ràng rằng khả năng tiếp cận ngôn ngữ là yếu tố then chốt để thúc đẩy ứng dụng AI rộng rãi hơn. Toàn bộ dòng Qwen hiện hỗ trợ hơn 29 ngôn ngữ, vượt xa nhiều đối thủ và mở đường cho ứng dụng trong các lĩnh vực đa dạng trên toàn cầu.

Khi so sánh các mô hình AI đa phương thức hàng đầu, các nhà nghiên cứu phát hiện rằng Qwen có khả năng đặc biệt mạnh trong việc xử lý các ngôn ngữ châu Á. Thậm chí, nó vượt trội hơn so với những đối thủ như LLaMA và điều đó cho thấy thế mạnh chuyên biệt trong xử lý ngôn ngữ phi Latin.

Trọng tâm về đa ngôn ngữ này đã giải quyết một phần thách thức tiếp cận AI mà các nhà nghiên cứu đã chỉ ra, dù những rào cản khác như yêu cầu tài nguyên tính toán và giới hạn kỹ thuật vẫn còn là vấn đề lớn.

Khi AI đa phương thức tiếp tục phát triển, các mô hình có hỗ trợ đa ngôn ngữ mạnh mẽ sẽ có lợi thế rõ rệt tại các thị trường ngoài Bắc Mỹ và châu Âu vốn là những nơi mà các hệ thống AI truyền thống thường tập trung tối ưu hóa nhiều nhất.

Bài liên quan
Alibaba vấp phải hoài nghi khi ra mắt trung tâm dữ liệu thứ 2 tại Hàn Quốc
Tại buổi họp báo ra mắt trung tâm dữ liệu thứ 2 của Alibaba tại Hàn Quốc hôm nay 19.6, kỹ sư trưởng giải pháp của Alibaba Cloud là Lim Jong-jin khẳng định: Dữ liệu lưu trữ tại Hàn Quốc sẽ không bị rò rỉ ra nước ngoài.

(0) Bình luận
Nổi bật Một thế giới
Tấn công mạng ngày càng tinh vi, cách nào để DN Việt không trở thành ‘mồi ngon’ của hacker?
5 giờ trước Nhịp đập khoa học
Nói về an ninh mạng, ông Lê Trần Hải Minh, Phó trưởng phòng Chính sách An ninh thông tin Vietcombank, ví von rằng cửa chính khi được khóa chặt, canh giữ cẩn thận thì trộm sẽ không vào, nhưng chúng lại tìm cửa sau - những chỗ phòng thủ yếu.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Alibaba ra mắt mô hình Qwen VLo chuyên xử lý hình ảnh