Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Scale AI để lộ dữ liệu mật của Google, Meta, xAI trên Google Docs

Sơn Vân • 14:35 26/06/2025

Scale AI cố gắng trấn an khách hàng rằng dữ liệu của họ an toàn sau khoản đầu tư trị giá 14,3 tỉ USD từ Meta Platforms. Thế nhưng, các file bị rò rỉ và lời kể của chính các cộng tác viên cho công ty khởi nghiệp gán nhãn dữ liệu nổi tiếng này chỉ ra hãng có lỗ hổng bảo mật nghiêm trọng.

Trang Insider phát hiện rằng Scale AI thường xuyên sử dụng các tài liệu Google Docs công khai để theo dõi công việc với khách hàng nổi bật như Google, Meta Platforms và xAI. Trong đó, nhiều tài liệu huấn luyện AI được gắn nhãn bí mật nhưng lại có thể truy cập bởi bất kỳ ai có liên kết (link).

Các cộng tác viên nói với Insider rằng Scale AI dựa vào Google Docs công khai để chia sẻ tài liệu nội bộ. Đây là phương pháp hiệu quả cho đội ngũ cộng tác viên khổng lồ lên đến ít nhất 240.000 người, song đồng thời tạo ra rủi ro rõ ràng về an ninh mạng và tính bảo mật dữ liệu.

Scale AI cũng để lộ các tài liệu Google Docs chứa thông tin nhạy cảm về hàng nghìn cộng tác viên, gồm địa chỉ email cá nhân và cả việc liệu họ có bị nghi ngờ “gian lận” hay không. Một số tài liệu đó có thể được xem và thậm chí chỉnh sửa, bởi bất kỳ ai có đúng URL.

Hiện chưa có dấu hiệu cho thấy Scale AI bị tấn công vì những lỗ hổng này. Tuy nhiên, hai chuyên gia an ninh mạng nói với Insider rằng những hoạt động như vậy có thể khiến công ty và khách hàng dễ bị các cuộc tấn công như giả mạo cộng tác viên hoặc tải phần mềm độc hại vào các file công khai.

Scale AI nói với Insider rằng công ty rất coi trọng vấn đề bảo mật và đang xem xét vụ việc.

“Chúng tôi đang tiến hành điều tra kỹ lưỡng và đã vô hiệu hóa khả năng chia sẻ công khai tài liệu từ các hệ thống do Scale AI quản lý. Chúng tôi cam kết áp dụng các biện pháp kỹ thuật, chính sách mạnh mẽ để bảo vệ thông tin mật và luôn nỗ lực cải thiện quy trình bảo mật”, phát ngôn viên của Scale AI nói.

Meta Platforms từ chối bình luận. Google và xAI không phản hồi câu hỏi từ Insider.

scale-ai-de-lo-du-lieu-tuyet-mat-cua-google-meta-xai-tren-google-docs.jpg — Alexandr Wang, nhà đồng sáng lập Scale AI, về lãnh đạo bộ phận “siêu trí tuệ" của Meta Platforms sau thương vụ đầu tư - Ảnh: Internet

Sau khi Meta Platforms chi 14,3 tỉ USD để mua 49% cổ phần Scale AI, Google, OpenAI và xAI đã tạm ngừng hợp tác với công ty gán nhãn dữ liệu này. Trong một bài đăng blog tuần trước, Scale AI trấn an các khách hàng công nghệ lớn rằng họ vẫn là đối tác trung lập, độc lập với các tiêu chuẩn bảo mật nghiêm ngặt.

Scale AI khẳng định rằng “duy trì niềm tin của khách hàng luôn là ưu tiên hàng đầu” và có “các biện pháp kỹ thuật, chính sách mạnh mẽ để bảo vệ thông tin mật của khách hàng”.

Tuy nhiên, phát hiện của Insider đặt ra câu hỏi liệu Scale AI đã thực sự làm đủ để đảm bảo an toàn bảo mật không, và liệu Meta Platforms có biết về vấn đề này trước khi rót vốn không.

Các dự án AI bí mật có thể bị truy cập công khai

Insider cho biết có thể xem hàng nghìn trang tài liệu dự án từ 85 file Google Docs liên quan đến các dự án Scale AI thực hiện cho những khách hàng công nghệ lớn. Các tài liệu này gồm cả thông tin nhạy cảm như cách Google sử dụng ChatGPT để cải thiện chatbot AI của mình – khi đó có tên là Bard (hiện là Gemini).

Scale AI cũng để công khai ít nhất 7 tài liệu hướng dẫn được gắn nhãn bí mật bởi Google, mà bất kỳ ai sở hữu URL đều có thể xem. Những tài liệu này chỉ ra những gì Google cho là vấn đề của Bard, chẳng hạn khả năng trả lời câu hỏi phức tạp còn kém, và hướng dẫn cụ thể cho các cộng tác viên Scale AI về cách khắc phục.

Với xAI của Elon Musk, mà Scale AI thực hiện ít nhất 10 dự án AI tạo sinh tính đến tháng 4, các tài liệu và bảng tính công khai trên Google Docs tiết lộ chi tiết dự án Project Xylophone, theo Insider. Tài liệu huấn luyện và danh sách 700 đoạn hội thoại gợi ý cho thấy mục tiêu của dự án là cải thiện khả năng trò chuyện của AI về nhiều chủ đề, từ zombie, cuộc sống trên sao Hỏa đến sửa ống nước.

Tài liệu huấn luyện AI của Meta Platforms, được gắn nhãn bí mật, cũng bị để công khai với bất kỳ ai có URL, gồm cả liên kết đến nhiều file âm thanh ví dụ cho các lời thoại “tốt” và “xấu,” thể hiện tiêu chuẩn công ty mẹ Facebook đặt ra về khả năng biểu đạt trong sản phẩm AI của họ.

Một số dự án này tập trung vào việc huấn luyện chatbot AI của Meta Platforms (Meta AI) để trở nên trò chuyện tự nhiên và giàu cảm xúc hơn, trong khi vẫn đảm bảo xử lý các chủ đề nhạy cảm một cách an toàn. Tính đến tháng 4, Meta Platforms có ít nhất 21 dự án AI tạo sinh với Scale AI.

Một số cộng tác viên của Scale được Insider phỏng vấn cho biết dễ dàng nhận ra mình đang làm việc cho khách hàng nào dù họ chỉ được gọi bằng mã, thường chỉ cần nhìn vào nội dung nhiệm vụ hoặc cách diễn đạt hướng dẫn là đoán ra. Đôi lúc thậm chí còn đơn giản hơn: Một bản trình chiếu mà Insider xem được có cả logo của Google.

Ngay cả khi các dự án được thiết kế để giấu tên, một số cộng tác viên từ những dự án khác nhau vẫn nói rằng họ có thể nhận ra ngay khách hàng hoặc sản phẩm. Trong một số trường hợp, chỉ cần gợi ý cho mô hình AI hoặc hỏi trực tiếp chatbot là đủ nhận ra sản phẩm của ai.

Thông tin cá nhân của cộng tác viên bị lộ

Các tài liệu khác để lộ thông tin cá nhân nhạy cảm của cộng tác viên Scale AI. Insider xem được các bảng tính không được khóa, liệt kê tên và địa chỉ Gmail cá nhân của hàng nghìn người. Một số người được Insider liên hệ nói rằng bất ngờ khi biết thông tin của mình có thể bị truy cập công khai chỉ bằng một URL. Nhiều tài liệu còn chứa đánh giá về hiệu suất làm việc của họ.

Một bảng tính có tiêu đề Người tốt và xấu phân loại hàng chục cộng tác viên là “chất lượng cao” hoặc bị nghi ngờ “gian lận”. Một danh sách khác chứa hàng trăm địa chỉ email cá nhân có tên di chuyển tất cả người làm nhiệm vụ gian lận, đánh dấu họ vì “hành vi đáng ngờ”.

Một bảng tính khác nêu tên gần 1.000 cộng tác viên bị “cấm nhầm” khỏi nền tảng Scale AI.

Các tài liệu khác cho thấy mức thù lao của từng cộng tác viên, kèm theo ghi chú chi tiết về những tranh chấp và sai lệch trong việc thanh toán.

Hệ thống bị chê “thiếu chuyên nghiệp”

Năm cộng tác viên cũ và hiện tại của Scale AI, làm việc trong các dự án khác nhau, nói với Insider rằng việc sử dụng Google Docs công khai là rất phổ biến trong công ty. Họ cho biết dùng Google Docs giúp Scale AI vận hành nhanh hơn vì phụ thuộc vào lao động tự do là chính. Việc cấp quyền truy cập từng cá nhân sẽ làm chậm quá trình.

Nền tảng nội bộ của Scale AI yêu cầu xác minh danh tính, đôi khi bằng camera, nhưng nhiều tài liệu huấn luyện AI lại có thể được truy cập qua liên kết công khai (hoặc liên kết trong các tài liệu khác) mà không cần xác minh.

“Toàn bộ hệ thống Google Docs luôn có vẻ tạm bợ và thiếu chuyên nghiệp”, một cộng tác viên nói.

Hai người khác kể rằng vẫn còn quyền truy cập các dự án cũ dù không còn làm việc nữa. Các tài liệu này đôi khi vẫn được cập nhật bởi yêu cầu từ phía khách hàng về cách mô hình AI nên được huấn luyện.

“Tất nhiên là nguy hiểm”

Sử dụng Google Docs công khai để tổ chức công việc nội bộ có thể tạo rủi ro an ninh mạng nghiêm trọng, theo Joseph Steinberg - giảng viên an ninh mạng tại Đại học Columbia (Mỹ).

“Tất nhiên là nguy hiểm. Trong trường hợp nhẹ nhất, nó chỉ dẫn đến các cuộc tấn công social engineering (lừa đảo bằng tương tác con người)”, ông nói.

Social engineering là dạng tấn công mà hacker lừa nhân viên hoặc cộng tác viên để lấy quyền truy cập, thường bằng cách giả danh người trong công ty.

Việc để lộ thông tin của hàng nghìn cộng tác viên tạo ra rất nhiều cơ hội cho kiểu tấn công này, Joseph Steinberg nhấn mạnh.

Tuy nhiên, việc đầu tư nhiều vào bảo mật có thể làm chậm bước tiến của các công ty khởi nghiệp đang ưu tiên tăng trưởng.

“Các công ty thực sự dành thời gian để làm bảo mật đúng cách thường lại tụt lại vì đối thủ tung sản phẩm ra thị trường nhanh hơn”, ông nói.

Thêm vào đó, việc một số file Google Docs có thể chỉnh sửa công khai tạo nguy cơ hacker chèn liên kết độc hại vào tài liệu, Stephanie Kurtz (Giám đốc khu vực tại hãng an ninh mạng Trace3) nói với Insider.

Stephanie Kurtz cũng khuyên rằng các công ty nên quản lý quyền truy cập qua lời mời. “Đưa tài liệu lên công khai và hy vọng không ai chia sẻ liên kết là một chiến lược không tốt”, bà nhận xét.

scale-ai-de-lo-du-lieu-tuyet-mat-cua-google-meta-xai-tren-google-docs1.jpg — Hàng nghìn file của Scale AI mà từng Insider xem qua, nay được chuyển sang chế độ riêng tư - Ảnh: Internet

Khóa tài liệu dự án

Scale AI hiện đã khóa tài liệu dự án cho các khách hàng như Meta Platforms và xAI sau báo cáo từ Insider rằng hàng nghìn file nhạy cảm được lưu trữ trên Google Docs có thể truy cập công khai bằng liên kết.

Việc này khiến nhiều nhóm làm việc tạm thời không thể truy cập các tài liệu huấn luyện. Hàng nghìn file của Scale AI mà Insider xem qua khi còn công khai, nay được chuyển sang chế độ riêng tư.

“Những gì đang xảy ra chỉ là phản ứng vội vàng khi bị lên báo”, Stephanie Kurtz nói với Insider. Bà cho rằng việc khóa tài liệu và cấp quyền truy cập đúng đối tượng “lẽ ra nên được làm ngay từ đầu”.

Tính đến ngày 25.6, các nhóm Scale AI đã giải quyết được phần lớn các sự cố truy cập tài liệu, một cộng tác viên cho biết. Một người khác nói rằng hiện nay cộng tác viên đang được cấp quyền truy cập cá nhân vào từng tài liệu.

Sau khi Scale AI khóa tài liệu, một cộng tác viên mô tả rằng toàn bộ hệ thống gặp sự cố truy cập hôm 24.6. Một người khác nói rằng công việc của nhiều nhóm đã bị đình trệ hoàn toàn do các giới hạn mới, thậm chí một nhóm còn mất quyền truy cập ngay giữa buổi thuyết trình quan trọng.

“Chúng tôi về cơ bản ngồi chơi xơi nước ở đây”, một cộng tác viên nói.

Bài liên quan

Google bị tố thuê Scale AI học lén ChatGPT để nâng tầm chatbot AI

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Nhà báo Lưu Quang Định làm Tổng biên tập Tạp chí Một Thế Giới

hôm qua Khoa học - công nghệ

Ngày 25.6, tại Hà Nội, Hội Thông tin Khoa học và Công nghệ Việt Nam đã tổ chức Hội nghị về công tác cán bộ Tạp chí Một Thế Giới.

Luật Dữ liệu sẽ mở ra chương mới trong phát triển kinh tế số

Dữ liệu chính là nền tảng cốt lõi của trí tuệ nhân tạo (AI) và được xem như "mỏ vàng" đối với...
Công bố mô hình AI dự đoán thông tin di truyền siêu mạnh

Google DeepMind vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng dự đoán thông tin...
Thông điệp của Tổng biên tập

Trong thời đại ngày nay, tất cả chúng ta đều được kết nối chặt chẽ trong MỘT THẾ GIỚI chung,...

Đừng bỏ lỡ

Scale AI để lộ dữ liệu mật của Google, Meta, xAI trên Google Docs

3 phút trước Nhịp đập khoa học

Scale AI cố gắng trấn an khách hàng rằng dữ liệu của họ an toàn sau khoản đầu tư trị giá 14,3 tỉ USD từ Meta Platforms. Thế nhưng, các file bị rò rỉ và lời kể của chính các cộng tác viên cho công ty khởi nghiệp gán nhãn dữ liệu nổi tiếng này chỉ ra hãng có lỗ hổng bảo mật nghiêm trọng.
Kính thông minh sẽ thay thế vai trò của smartphone trong tương lai?

28 phút trước Thế giới số

Alipay+, cổng thanh toán ví điện tử toàn cầu do Ant International vận hành, đã thực hiện giao dịch e-wallet thực tế đầu tiên trên thế giới qua kính thực tế tăng cường (AR).
Kỳ thi tốt nghiệp THPT 2025: Đề Ngữ văn mang tính thời sự cao, vừa sức với thí sinh

một giờ trước Giáo dục

Sáng nay (26.6), hơn 1 triệu thí sinh dự kỳ thi tốt nghiệp THPT 2025 đã bước vào môn thi đầu tiên – Ngữ văn – theo hình thức tự luận. Với nhóm thí sinh học chương trình giáo dục phổ thông mới (2018), đề thi không sử dụng ngữ liệu nằm trong chương trình - sách giáo khoa (SGK).
Vụ bác sĩ ở Cà Mau bị nghi sử dụng bằng giả: Đại học Y dược TP.HCM trả lời

một giờ trước Theo dòng thời sự

Trường đại học Y dược TP.HCM xác nhận ông H. không có tên trong cơ sở dữ liệu đào tạo và cấp phát văn bằng của trường.
Mua bán dữ liệu cá nhân: Tiền phạt có thể gấp 10 lần tiền bán

2 giờ trước Theo dòng thời sự

Hành vi mua, bán dữ liệu cá nhân có thể bị phạt đến 10 lần khoản thu có được từ hành vi vi phạm; vi phạm quy định chuyển dữ liệu cá nhân xuyên biên giới, mức phạt tiền tối đa 5% doanh thu năm liền trước.

Mới nhất

Công bố mô hình AI dự đoán thông tin di truyền siêu mạnh

19 phút trước Tiến bộ y học

Google DeepMind vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng dự đoán thông tin di truyền. Mô hình này có những tính năng vượt trội như khả năng phân tích cùng lúc 1 triệu ký tự DNA.
Luật Dữ liệu sẽ mở ra chương mới trong phát triển kinh tế số

2 giờ trước Thế giới số

Dữ liệu chính là nền tảng cốt lõi của trí tuệ nhân tạo (AI) và được xem như "mỏ vàng" đối với doanh nghiệp công nghệ.
Trung tâm dữ liệu của xAI bị phản ứng vì gây ô nhiễm

4 giờ trước Chuyển động

Công ty xAI của Elon Musk đang bị lưu ý tại thành phố Memphis (Mỹ), nơi các tuabin khí tự nhiên cung cấp năng lượng cho trung tâm dữ liệu Colossus của công ty đã khiến người dân lo ngại về tình trạng ô nhiễm không khí.
Thêm một phán quyết ủng hộ AI trong cuộc chiến bản quyền với nhà văn

5 giờ trước Câu chuyện văn hóa

Một thẩm phán liên bang đã đứng về phía Meta vào ngày 25.6 trong vụ kiện do 13 tác giả sách đệ đơn cáo buộc Meta đã huấn luyện các mô hình AI của mình một cách bất hợp pháp bằng các tác phẩm có bản quyền của họ.
Nvidia là công ty giá trị nhất thế giới khi cổ phiếu tăng cao kỷ lục nhờ dự báo ‘Làn sóng vàng’ AI

5 giờ trước Thế giới số

Cổ phiếu của Nvidia đã lập mức cao kỷ lục mới hôm 25.6 và hãng chip trí tuệ nhân tạo (AI) Mỹ một lần nữa giành lại ngôi vị công ty giá trị nhất thế giới.