Scale AI cố gắng trấn an khách hàng rằng dữ liệu của họ an toàn sau khoản đầu tư trị giá 14,3 tỉ USD từ Meta Platforms. Thế nhưng, các file bị rò rỉ và lời kể của chính các cộng tác viên cho công ty khởi nghiệp gán nhãn dữ liệu nổi tiếng này chỉ ra hãng có lỗ hổng bảo mật nghiêm trọng.
Trang Insider phát hiện rằng Scale AI thường xuyên sử dụng các tài liệu Google Docs công khai để theo dõi công việc với khách hàng nổi bật như Google, Meta Platforms và xAI. Trong đó, nhiều tài liệu huấn luyện AI được gắn nhãn bí mật nhưng lại có thể truy cập bởi bất kỳ ai có liên kết (link).
Các cộng tác viên nói với Insider rằng Scale AI dựa vào Google Docs công khai để chia sẻ tài liệu nội bộ. Đây là phương pháp hiệu quả cho đội ngũ cộng tác viên khổng lồ lên đến ít nhất 240.000 người, song đồng thời tạo ra rủi ro rõ ràng về an ninh mạng và tính bảo mật dữ liệu.
Scale AI cũng để lộ các tài liệu Google Docs chứa thông tin nhạy cảm về hàng nghìn cộng tác viên, gồm địa chỉ email cá nhân và cả việc liệu họ có bị nghi ngờ “gian lận” hay không. Một số tài liệu đó có thể được xem và thậm chí chỉnh sửa, bởi bất kỳ ai có đúng URL.
Hiện chưa có dấu hiệu cho thấy Scale AI bị tấn công vì những lỗ hổng này. Tuy nhiên, hai chuyên gia an ninh mạng nói với Insider rằng những hoạt động như vậy có thể khiến công ty và khách hàng dễ bị các cuộc tấn công như giả mạo cộng tác viên hoặc tải phần mềm độc hại vào các file công khai.
Scale AI nói với Insider rằng công ty rất coi trọng vấn đề bảo mật và đang xem xét vụ việc.
“Chúng tôi đang tiến hành điều tra kỹ lưỡng và đã vô hiệu hóa khả năng chia sẻ công khai tài liệu từ các hệ thống do Scale AI quản lý. Chúng tôi cam kết áp dụng các biện pháp kỹ thuật, chính sách mạnh mẽ để bảo vệ thông tin mật và luôn nỗ lực cải thiện quy trình bảo mật”, phát ngôn viên của Scale AI nói.
Meta Platforms từ chối bình luận. Google và xAI không phản hồi câu hỏi từ Insider.
Sau khi Meta Platforms chi 14,3 tỉ USD để mua 49% cổ phần Scale AI, Google, OpenAI và xAI đã tạm ngừng hợp tác với công ty gán nhãn dữ liệu này. Trong một bài đăng blog tuần trước, Scale AI trấn an các khách hàng công nghệ lớn rằng họ vẫn là đối tác trung lập, độc lập với các tiêu chuẩn bảo mật nghiêm ngặt.
Scale AI khẳng định rằng “duy trì niềm tin của khách hàng luôn là ưu tiên hàng đầu” và có “các biện pháp kỹ thuật, chính sách mạnh mẽ để bảo vệ thông tin mật của khách hàng”.
Tuy nhiên, phát hiện của Insider đặt ra câu hỏi liệu Scale AI đã thực sự làm đủ để đảm bảo an toàn bảo mật không, và liệu Meta Platforms có biết về vấn đề này trước khi rót vốn không.
Các dự án AI bí mật có thể bị truy cập công khai
Insider cho biết có thể xem hàng nghìn trang tài liệu dự án từ 85 file Google Docs liên quan đến các dự án Scale AI thực hiện cho những khách hàng công nghệ lớn. Các tài liệu này gồm cả thông tin nhạy cảm như cách Google sử dụng ChatGPT để cải thiện chatbot AI của mình – khi đó có tên là Bard (hiện là Gemini).
Scale AI cũng để công khai ít nhất 7 tài liệu hướng dẫn được gắn nhãn bí mật bởi Google, mà bất kỳ ai sở hữu URL đều có thể xem. Những tài liệu này chỉ ra những gì Google cho là vấn đề của Bard, chẳng hạn khả năng trả lời câu hỏi phức tạp còn kém, và hướng dẫn cụ thể cho các cộng tác viên Scale AI về cách khắc phục.
Với xAI của Elon Musk, mà Scale AI thực hiện ít nhất 10 dự án AI tạo sinh tính đến tháng 4, các tài liệu và bảng tính công khai trên Google Docs tiết lộ chi tiết dự án Project Xylophone, theo Insider. Tài liệu huấn luyện và danh sách 700 đoạn hội thoại gợi ý cho thấy mục tiêu của dự án là cải thiện khả năng trò chuyện của AI về nhiều chủ đề, từ zombie, cuộc sống trên sao Hỏa đến sửa ống nước.
Tài liệu huấn luyện AI của Meta Platforms, được gắn nhãn bí mật, cũng bị để công khai với bất kỳ ai có URL, gồm cả liên kết đến nhiều file âm thanh ví dụ cho các lời thoại “tốt” và “xấu,” thể hiện tiêu chuẩn công ty mẹ Facebook đặt ra về khả năng biểu đạt trong sản phẩm AI của họ.
Một số dự án này tập trung vào việc huấn luyện chatbot AI của Meta Platforms (Meta AI) để trở nên trò chuyện tự nhiên và giàu cảm xúc hơn, trong khi vẫn đảm bảo xử lý các chủ đề nhạy cảm một cách an toàn. Tính đến tháng 4, Meta Platforms có ít nhất 21 dự án AI tạo sinh với Scale AI.
Một số cộng tác viên của Scale được Insider phỏng vấn cho biết dễ dàng nhận ra mình đang làm việc cho khách hàng nào dù họ chỉ được gọi bằng mã, thường chỉ cần nhìn vào nội dung nhiệm vụ hoặc cách diễn đạt hướng dẫn là đoán ra. Đôi lúc thậm chí còn đơn giản hơn: Một bản trình chiếu mà Insider xem được có cả logo của Google.
Ngay cả khi các dự án được thiết kế để giấu tên, một số cộng tác viên từ những dự án khác nhau vẫn nói rằng họ có thể nhận ra ngay khách hàng hoặc sản phẩm. Trong một số trường hợp, chỉ cần gợi ý cho mô hình AI hoặc hỏi trực tiếp chatbot là đủ nhận ra sản phẩm của ai.
Thông tin cá nhân của cộng tác viên bị lộ
Các tài liệu khác để lộ thông tin cá nhân nhạy cảm của cộng tác viên Scale AI. Insider xem được các bảng tính không được khóa, liệt kê tên và địa chỉ Gmail cá nhân của hàng nghìn người. Một số người được Insider liên hệ nói rằng bất ngờ khi biết thông tin của mình có thể bị truy cập công khai chỉ bằng một URL. Nhiều tài liệu còn chứa đánh giá về hiệu suất làm việc của họ.
Một bảng tính có tiêu đề Người tốt và xấu phân loại hàng chục cộng tác viên là “chất lượng cao” hoặc bị nghi ngờ “gian lận”. Một danh sách khác chứa hàng trăm địa chỉ email cá nhân có tên di chuyển tất cả người làm nhiệm vụ gian lận, đánh dấu họ vì “hành vi đáng ngờ”.
Một bảng tính khác nêu tên gần 1.000 cộng tác viên bị “cấm nhầm” khỏi nền tảng Scale AI.
Các tài liệu khác cho thấy mức thù lao của từng cộng tác viên, kèm theo ghi chú chi tiết về những tranh chấp và sai lệch trong việc thanh toán.
Hệ thống bị chê “thiếu chuyên nghiệp”
Năm cộng tác viên cũ và hiện tại của Scale AI, làm việc trong các dự án khác nhau, nói với Insider rằng việc sử dụng Google Docs công khai là rất phổ biến trong công ty. Họ cho biết dùng Google Docs giúp Scale AI vận hành nhanh hơn vì phụ thuộc vào lao động tự do là chính. Việc cấp quyền truy cập từng cá nhân sẽ làm chậm quá trình.
Nền tảng nội bộ của Scale AI yêu cầu xác minh danh tính, đôi khi bằng camera, nhưng nhiều tài liệu huấn luyện AI lại có thể được truy cập qua liên kết công khai (hoặc liên kết trong các tài liệu khác) mà không cần xác minh.
“Toàn bộ hệ thống Google Docs luôn có vẻ tạm bợ và thiếu chuyên nghiệp”, một cộng tác viên nói.
Hai người khác kể rằng vẫn còn quyền truy cập các dự án cũ dù không còn làm việc nữa. Các tài liệu này đôi khi vẫn được cập nhật bởi yêu cầu từ phía khách hàng về cách mô hình AI nên được huấn luyện.
“Tất nhiên là nguy hiểm”
Sử dụng Google Docs công khai để tổ chức công việc nội bộ có thể tạo rủi ro an ninh mạng nghiêm trọng, theo Joseph Steinberg - giảng viên an ninh mạng tại Đại học Columbia (Mỹ).
“Tất nhiên là nguy hiểm. Trong trường hợp nhẹ nhất, nó chỉ dẫn đến các cuộc tấn công social engineering (lừa đảo bằng tương tác con người)”, ông nói.
Social engineering là dạng tấn công mà hacker lừa nhân viên hoặc cộng tác viên để lấy quyền truy cập, thường bằng cách giả danh người trong công ty.
Việc để lộ thông tin của hàng nghìn cộng tác viên tạo ra rất nhiều cơ hội cho kiểu tấn công này, Joseph Steinberg nhấn mạnh.
Tuy nhiên, việc đầu tư nhiều vào bảo mật có thể làm chậm bước tiến của các công ty khởi nghiệp đang ưu tiên tăng trưởng.
“Các công ty thực sự dành thời gian để làm bảo mật đúng cách thường lại tụt lại vì đối thủ tung sản phẩm ra thị trường nhanh hơn”, ông nói.
Thêm vào đó, việc một số file Google Docs có thể chỉnh sửa công khai tạo nguy cơ hacker chèn liên kết độc hại vào tài liệu, Stephanie Kurtz (Giám đốc khu vực tại hãng an ninh mạng Trace3) nói với Insider.
Stephanie Kurtz cũng khuyên rằng các công ty nên quản lý quyền truy cập qua lời mời. “Đưa tài liệu lên công khai và hy vọng không ai chia sẻ liên kết là một chiến lược không tốt”, bà nhận xét.
Khóa tài liệu dự án
Scale AI hiện đã khóa tài liệu dự án cho các khách hàng như Meta Platforms và xAI sau báo cáo từ Insider rằng hàng nghìn file nhạy cảm được lưu trữ trên Google Docs có thể truy cập công khai bằng liên kết.
Việc này khiến nhiều nhóm làm việc tạm thời không thể truy cập các tài liệu huấn luyện. Hàng nghìn file của Scale AI mà Insider xem qua khi còn công khai, nay được chuyển sang chế độ riêng tư.
“Những gì đang xảy ra chỉ là phản ứng vội vàng khi bị lên báo”, Stephanie Kurtz nói với Insider. Bà cho rằng việc khóa tài liệu và cấp quyền truy cập đúng đối tượng “lẽ ra nên được làm ngay từ đầu”.
Tính đến ngày 25.6, các nhóm Scale AI đã giải quyết được phần lớn các sự cố truy cập tài liệu, một cộng tác viên cho biết. Một người khác nói rằng hiện nay cộng tác viên đang được cấp quyền truy cập cá nhân vào từng tài liệu.
Sau khi Scale AI khóa tài liệu, một cộng tác viên mô tả rằng toàn bộ hệ thống gặp sự cố truy cập hôm 24.6. Một người khác nói rằng công việc của nhiều nhóm đã bị đình trệ hoàn toàn do các giới hạn mới, thậm chí một nhóm còn mất quyền truy cập ngay giữa buổi thuyết trình quan trọng.
“Chúng tôi về cơ bản ngồi chơi xơi nước ở đây”, một cộng tác viên nói.