Apple vẫn đang nỗ lực để làm cho Siri trở nên thực sự thông minh. Tuy nhiên, do AI tự phát triển dường như không mang lại hiệu quả như mong muốn, tập đoàn iPhone hiện đang tìm kiếm các giải pháp thay thế – và điều đó có thể đến từ Anthropic hoặc OpenAI.
Tại sự kiện WWDC năm ngoái, Apple từng công bố kế hoạch tích hợp trí tuệ nhân tạo vào Siri để làm cho trợ lý ảo này thông minh hơn. Tuy nhiên, đến thời điểm hiện tại, kế hoạch đưa Siri lên tầm cao mới với AI đã bị dời đến năm 2026. Trong thời gian chờ đợi, Siri vẫn “ngây ngô” và chỉ thể hiện được năng lực ở một vài lĩnh vực nhất định. Để có thể kịp thời gian đã định, Apple hiện đang gấp rút tìm kiếm một giải pháp AI đáng tin cậy.
Siri sẽ trở nên thông minh nhờ ChatGPT hoặc Claude?
Theo Bloomberg, Apple hiện đang đi theo hai hướng để đạt được mục tiêu nâng cấp Siri. Một mặt, đội ngũ nội bộ của hãng ngày đêm nuôi dạy Siri, tức là đang huấn luyện một hệ thống AI riêng để trang bị cho Siri những kỹ năng mới. Dự án này có tên “Siri LLM” và đã được phát triển trong một thời gian. Mặt khác, Apple được cho là đang đàm phán sơ bộ với OpenAI và Anthropic để tích hợp các mô hình AI của họ vào Siri.
Theo đó, Apple sẽ huấn luyện các phiên bản riêng của những mô hình AI vốn đang vận hành ChatGPT và Claude. Những mô hình này sẽ được triển khai trên hạ tầng đám mây của chính Apple, từ đó xử lý các yêu cầu từ người dùng Siri. Tuy nhiên, các cuộc đàm phán này hiện vẫn ở giai đoạn rất sớm. Theo một nguồn tin nội bộ từ Apple, quyết định cuối cùng sẽ chỉ được đưa ra vào năm 2026.
Nỗ lực tìm kiếm giải pháp AI bên ngoài cho Siri được cho là do Mike Rockwell, người đứng đầu mảng Siri, cùng Craig Federighi, Phó chủ tịch cấp cao phụ trách kỹ thuật phần mềm, khởi xướng. Trong các thử nghiệm ban đầu với các mô hình AI bên ngoài, không chỉ OpenAI và Anthropic được cân nhắc mà cả Google Gemini cũng đã được đưa vào đánh giá.
Tuy nhiên, sau các bài kiểm tra ban đầu, mô hình của Anthropic được cho là mang lại kết quả đầy hứa hẹn. Việc sử dụng mô hình của OpenAI cũng có lợi thế riêng với Apple, bởi ChatGPT hiện đã được tích hợp sẵn trên iPhone.
Khi người dùng giao cho Siri một nhiệm vụ cần tìm kiếm trên internet, AI sẽ xử lý thay cho trợ lý ảo này. Vì thế, việc tiếp tục mở rộng hợp tác với OpenAI – thay vì sử dụng song song hai mô hình AI khác nhau – có thể là lựa chọn đơn giản và hợp lý hơn cho Apple.
So sánh AI Siri với "AI nhà người ta"
1. AI Siri hiện tại (trước khi có bản nâng cấp LLM vào 2026)
Tính năng chính:
Thực hiện lệnh cụ thể: Đặt báo thức, hẹn giờ, bật/tắt thiết bị thông minh, gọi điện, gửi tin nhắn, mở ứng dụng, phát nhạc.
Tìm kiếm thông tin đơn giản: Tìm kiếm thời tiết, kết quả thể thao, định nghĩa từ điển, thông tin cơ bản trên web.
Tích hợp sâu vào hệ sinh thái Apple: Tương tác liền mạch với các ứng dụng gốc của Apple (Mail, Calendar, Reminders, Maps), HomeKit và các thiết bị Apple khác.
Xử lý ngôn ngữ tự nhiên cơ bản: Có thể hiểu các câu lệnh nói thông thường, nhưng thường giới hạn trong các kịch bản đã được lập trình sẵn.
Điểm mạnh:
Tích hợp mượt mà: Là một phần của hệ điều hành Apple, cho phép trải nghiệm liền mạch và điều khiển thiết bị hiệu quả.
Bảo mật và Quyền riêng tư: Apple ưu tiên quyền riêng tư, xử lý nhiều tác vụ trên thiết bị (on-device) để giữ dữ liệu cá nhân an toàn.
Điểm yếu:
Thiếu khả năng suy luận và hiểu ngữ cảnh sâu: Không thể duy trì ngữ cảnh trong các cuộc trò chuyện dài, không hiểu ý định phức tạp hoặc các câu hỏi đa tầng.
"Dumb" (kém thông minh) như bài báo nói: Không có khả năng sáng tạo văn bản, lập trình, giải quyết toán học phức tạp hoặc phân tích thông tin như LLM. Phản hồi thường là kịch bản hoặc tìm kiếm web đơn giản.
Khó khăn trong việc xử lý các yêu cầu không xác định trước: Nếu câu hỏi nằm ngoài các lệnh đã được lập trình, Siri thường không hiểu.
Chưa phải là AI "tạo sinh": Không thể tự tạo ra nội dung mới, viết mã hoặc tổng hợp thông tin một cách sáng tạo.
2. Gemini (Google)
Tính năng chính (Ví dụ: Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 2.5):
Mô hình đa phương thức (Multimodal): Đây là điểm mạnh đặc trưng của Gemini. Nó không chỉ xử lý văn bản mà còn hiểu và tạo ra nội dung từ hình ảnh, âm thanh và video. Bạn có thể cho Gemini xem một bức ảnh và hỏi về nội dung trong đó.
Suy luận nâng cao và giải quyết vấn đề: Xuất sắc trong các tác vụ toán học, lập trình, khoa học và suy luận logic. Các phiên bản Gemini Pro/Ultra được tối ưu hóa cho các bài toán phức tạp, có khả năng "tư duy" qua nhiều bước.
Ngữ cảnh dài vượt trội: Các phiên bản như Gemini 1.5 Pro có cửa sổ ngữ cảnh khổng lồ lên tới 1 triệu token (có thể mở rộng), cho phép nó phân tích và tổng hợp thông tin từ toàn bộ sách, mã nguồn lớn, hoặc các đoạn video dài.
Tạo mã và gỡ lỗi (Code Generation & Debugging): Rất mạnh trong việc tạo ra mã, giải thích mã, tìm lỗi và thậm chí là viết các script phức tạp.
Tích hợp với hệ sinh thái Google: Được thiết kế để tích hợp sâu vào các sản phẩm của Google như Google Search, Workspace (Gmail, Docs), Android và Chrome. Điều này cho phép nó thực hiện các tác vụ như tóm tắt email, tạo bản nháp tài liệu, hoặc tìm kiếm thông tin hiệu quả hơn.
Điểm mạnh:
Khả năng đa phương thức: Vượt trội trong việc hiểu và tương tác với nhiều loại dữ liệu (văn bản, hình ảnh, âm thanh, video) cùng lúc.
Ngữ cảnh dài: Khả năng xử lý lượng thông tin khổng lồ trong một lần tương tác.
Suy luận và lập trình mạnh mẽ: Đã được chứng minh trong các điểm chuẩn về toán học và lập trình.
Tích hợp hệ sinh thái: Lợi thế lớn khi được nhúng vào các sản phẩm Google mà người dùng quen thuộc.
Điểm yếu:
Tiêu thụ tài nguyên: Các mô hình lớn như Gemini 1.5 Pro/Ultra đòi hỏi tài nguyên tính toán đáng kể.
Tính an toàn và thiên vị: Giống như mọi LLM, cần quản lý cẩn thận để tránh các vấn đề về thông tin sai lệch hoặc thiên vị.
3. ChatGPT (OpenAI)
Tính năng chính (GPT-3.5 và đặc biệt là GPT-4/GPT-4o):
Tạo văn bản: Viết bài luận, email, kịch bản, thơ, mã, v.v., với phong cách và giọng điệu đa dạng.
Giải quyết vấn đề và suy luận: Có khả năng giải các bài toán toán học phức tạp, lập trình, phân tích dữ liệu, suy luận logic qua nhiều bước.
Hiểu và tổng hợp thông tin: Đọc hiểu tài liệu dài, tóm tắt, trích xuất thông tin, trả lời câu hỏi dựa trên ngữ cảnh được cung cấp.
Khả năng đa phương thức (GPT-4o): Xử lý và tạo ra văn bản, hình ảnh, âm thanh và video. Có thể "thấy" hình ảnh bạn cung cấp và trả lời câu hỏi về chúng.
Sử dụng công cụ (Plugins/Browse/Advanced Data Analysis): Có thể tìm kiếm thông tin trên internet, chạy code Python trong môi trường an toàn để phân tích dữ liệu, hoặc tương tác với các ứng dụng bên thứ ba.
Duy trì ngữ cảnh hội thoại: Khá tốt trong việc ghi nhớ các đoạn hội thoại dài và phản hồi dựa trên ngữ cảnh trước đó.
Điểm mạnh:
Sức mạnh ngôn ngữ và sáng tạo: Khả năng tạo ra nội dung phong phú và sáng tạo vượt trội.
Khả năng suy luận và giải quyết vấn đề: Đặc biệt mạnh trong các tác vụ logic, toán học và lập trình.
Tính linh hoạt và đa năng: Có thể áp dụng cho rất nhiều loại tác vụ khác nhau.
Liên tục được cập nhật: OpenAI liên tục phát hành các phiên bản GPT mới với khả năng cải thiện.
Điểm yếu:
Thiếu khả năng tương tác trực tiếp với thiết bị: Không thể tự động bật đèn, gọi điện thoại hoặc điều khiển các chức năng phần cứng/phần mềm của thiết bị mà không có sự tích hợp cụ thể.
Vấn đề "hallucination": Đôi khi tạo ra thông tin không chính xác hoặc bịa đặt.
Phụ thuộc vào dữ liệu huấn luyện: Kiến thức bị giới hạn bởi dữ liệu mà nó được huấn luyện (dù liên tục được cập nhật qua tính năng duyệt web).
4. Claude (Anthropic)
Tính năng chính (Claude 3.5 Sonnet, Opus):
Tạo văn bản và trả lời câu hỏi: Tương tự ChatGPT, có khả năng tạo ra nhiều loại nội dung.
Hiểu ngữ cảnh dài: Claude nổi tiếng với cửa sổ ngữ cảnh rất lớn, cho phép nó xử lý và ghi nhớ lượng thông tin khổng lồ trong một cuộc trò chuyện hoặc tài liệu.
Ưu tiên an toàn và đạo đức (Constitutional AI): Được thiết kế với các nguyên tắc an toàn cốt lõi, giúp giảm thiểu việc tạo ra nội dung có hại hoặc không phù hợp.
Suy luận và phân tích: Rất mạnh trong các tác vụ phân tích logic, tóm tắt tài liệu phức tạp và trả lời các câu hỏi chuyên sâu.
Xử lý tệp tin lớn: Đặc biệt tốt trong việc tóm tắt hoặc trích xuất thông tin từ các tài liệu dài hoặc nhiều tệp.
Điểm mạnh:
An toàn và đáng tin cậy: Ít tạo ra nội dung có hại hơn và có xu hướng đưa ra các câu trả lời thận trọng, cân nhắc.
Xử lý ngữ cảnh dài vượt trội: Lý tưởng cho các tác vụ cần đọc hiểu nhiều tài liệu, văn bản dài.
Khả năng suy luận và phân tích sâu: Được đánh giá cao trong các tác vụ đòi hỏi sự logic và chi tiết.
Điểm yếu:
Đôi khi kém sáng tạo hơn ChatGPT: Trong một số tác vụ đòi hỏi sự sáng tạo tự do, Claude có thể ít linh hoạt hơn.
Giới hạn số lượng tin nhắn (bản miễn phí): Bản miễn phí có giới hạn tin nhắn rõ ràng hơn so với ChatGPT.
Tương tác trực tiếp với thiết bị: Tương tự ChatGPT, không có khả năng điều khiển thiết bị.