ByteDance, công ty mẹ của TikTok, đã giới thiệu tính năng gọi video thời gian thực cho chatbot AI Doubao của mình.
Theo thông báo trên tài khoản WeChat của Doubao, người dùng giờ đây có thể tương tác với AI thông qua video bằng cách kích hoạt camera điện thoại thông minh của họ trong khi gọi thoại. Tính năng mới này cho phép Doubao hỗ trợ người dùng trong nhiều tình huống khác nhau, chẳng hạn như hướng dẫn tham quan bảo tàng, đưa ra lời khuyên làm vườn, gợi ý công thức nấu ăn khi đi mua sắm, và giải thích biểu đồ cũng như video.
Thành quả từ nhiều năm đầu tư
Việc Doubao của ByteDance nâng cấp tính năng gọi video là một minh chứng cho sự tiến bộ nhanh chóng của Trung Quốc trong AI đa phương thức, vốn bắt nguồn từ một chiến lược quốc gia dài hạn.
"Kế hoạch phát triển AI thế hệ mới" của chính phủ Trung Quốc, ra mắt vào năm 2017, đã đặt ra mục tiêu đầy tham vọng là tạo ra một ngành công nghiệp AI quốc gia trị giá 150 tỉ USD vào năm 2030, với lộ trình ba giai đoạn hướng tới vị trí dẫn đầu toàn cầu. Cách tiếp cận phối hợp này gồm việc chỉ định các gã khổng lồ công nghệ là những nhà vô địch quốc gia trong đổi mới AI, đồng thời cung cấp nguồn tài trợ đáng kể từ chính phủ.
Cuộc cạnh tranh hiện tại giữa Doubao của ByteDance (107 triệu người dùng hoạt động hằng tháng) và Quark của Alibaba (149 triệu người dùng hoạt động hằng tháng) thể hiện đỉnh cao thương mại của khoản đầu tư chiến lược này. Lợi thế của Trung Quốc trong phát triển AI một phần được thúc đẩy bởi cơ sở dữ liệu người tiêu dùng khổng lồ, cung cấp dữ liệu phong phú để đào tạo các mô hình AI phức tạp có khả năng xử lý các tác vụ suy luận hình ảnh phức tạp, như trong chức năng video mới của Doubao.
Sự cạnh tranh ngày càng khốc liệt trong cuộc đua AI
Chức năng gọi video thời gian thực trong Doubao cho thấy khả năng đa phương thức (kết hợp xử lý hình ảnh, âm thanh và văn bản) đã trở thành chiến trường chính cho các ứng dụng AI tiêu dùng. Cách tiếp cận của ByteDance với Doubao tương đồng với những phát triển gần đây từ các đối thủ cạnh tranh, chẳng hạn như việc Alibaba giới thiệu mô hình AI đa phương thức Qwen2.5-Omni-7B vào tháng 3.
Khoản đầu tư 53 tỉ USD của Alibaba trong ba năm để nâng cao khả năng AI của mình cho thấy mức độ cạnh tranh cao trong cuộc đua AI đa phương thức này, với các công ty đặt cược rằng những khả năng này sẽ định nghĩa vị trí dẫn đầu thị trường.
Còn bên ngoài Trung Quốc, bản cập nhật GPT-4o của OpenAI đã thúc đẩy đáng kể số lượng người dùng ChatGPT với khả năng tạo hình ảnh được cải thiện. Ngoài ra, các hãng như Meta, Google... cũng không ngừng phát triển AI trên chatbot của họ.
Mô hình cạnh tranh tính năng đa phương thức này cho thấy các công ty AI đang chạy đua để tạo ra các giao diện người-máy trực quan và tự nhiên hơn, có thể hiểu và phản ứng với thế giới giống như con người. Các ứng dụng thực tế được nhấn mạnh trong thông báo của Doubao (phục vụ như một hướng dẫn viên bảo tàng, gia sư làm vườn hoặc chuyên gia công thức nấu ăn...) nhắm đến các trường hợp sử dụng hằng ngày có thể thúc đẩy việc áp dụng rộng rãi ngoài những người đam mê công nghệ.
AI suy luận hình ảnh thực đặt ra những thách thức
Mô hình AI suy luận hình ảnh của ByteDance cung cấp sức mạnh cho chức năng gọi video của Doubao đặt ra những câu hỏi đạo đức quan trọng về tác động của AI đối với các ngành công nghiệp sáng tạo.
Đã có những lo ngại về đạo đức đối với các công cụ AI được huấn luyện trên các tác phẩm sáng tạo có bản quyền. Ngày càng xuất hiện tranh cãi xung quanh các công cụ tạo hình ảnh của OpenAI có thể tái tạo nghệ thuật theo các phong cách cụ thể như của người sáng lập Studio Ghibli Hayao Miyazaki.
Những lo ngại này phản ánh các mô hình rộng hơn trong đạo đức AI, nơi quyền sở hữu nội dung do AI tạo ra vẫn còn mơ hồ về mặt pháp lý, tạo ra sự không chắc chắn cho cả người sáng tạo và các công ty. Sự tiến bộ nhanh chóng của AI đa phương thức như chức năng video của Doubao đang vượt xa các khuôn khổ pháp lý, vốn đang vật lộn để giải quyết các vấn đề mới lạ về quyền sở hữu trí tuệ, sự thiên vị trong nhận dạng hình ảnh và các tác động đến quyền riêng tư.
Sự căng thẳng giữa đổi mới và quản trị đạo đức đại diện cho một thách thức mà ByteDance cũng như các công ty AI khác sẽ cần phải giải quyết. Điều này càng đáng lưu ý trong bối cảnh họ cuốn theo việc triển khai các hệ thống AI hình ảnh ngày càng có khả năng cho người tiêu dùng.