Nhịp đập công nghệ

Giải pháp cho tình trạng khan hiếm dữ liệu đào tạo robot và AI

Cẩm Bình 03/08/2025 08:28

Đào tạo robot và trí tuệ nhân tạo (AI) cần lượng dữ liệu lớn, nếu là dữ liệu tổng hợp thì phải càng thực tế càng tốt.

Thu thập dữ liệu thực tế tốn kém và mất thời gian, còn dữ liệu mô phỏng thường được tạo ra bằng phần mềm làm game không sát thực tế. Tuy nhiên mới đây công ty DiffuseDrive tuyên bố nền tảng AI tạo sinh của họ biết đánh giá dữ liệu hiện có, xác định những gì còn thiếu rồi sử dụng mô hình khuếch tán độc quyền tạo dữ liệu sát thực tế.

Kỹ sư Balint Pasztor cùng nhà vật lý Roland Pinter thành lập DiffuseDrive vào năm 2023 sau khi gặp nhau tại công ty phần mềm Bosch. Ông Pasztor chia sẻ: “Trước đây chúng tôi từng tham gia phát triển công nghệ tự lái cấp độ 4 cho Porsche. Tình trạng khan hiếm dữ liệu là mảnh ghép còn thiếu để giải quyết bài toán AI bao trùm các lĩnh vực sản xuất, giám sát, nông nghiệp, hàng không vũ trụ. Ngành công nghiệp đã sử dụng cùng một mô hình kể từ những năm 2010, nhà sản xuất ô tô và nhà phát triển robot không có đủ dữ liệu thực tế cho các lĩnh vực thiết kế vận hành. Dữ liệu mô phỏng không đủ thực tế cho tính năng an toàn hay tính năng quan trọng. Chúng ta cần dữ liệu tạo ra bởi AI nhưng lại giống dữ liệu thực tế đến nỗi chẳng thể phân biệt”.

Không chỉ AI, loạt ứng dụng robot thương mại cũng đòi hỏi rất nhiều dữ liệu liên quan. Xe tự lái hay nhận dạng vật thể phục vụ thương mại điện tử đã có các tệp dữ liệu cố định ngày càng tăng, nhưng tự động hóa có thể phục vụ nhiều ứng dụng hơn nếu nền tảng AI được đào tạo bài bản.

Screenshot 2025-08-03 074754
Nền tảng do DiffuseDrive phát triển tạo ra dữ liệu bởi AI nhưng lại rất giống dữ liệu thực tế - Ảnh: DiffuseDrive

Giải pháp của DiffuseDrive

Nền tảng do DiffuseDrive phát triển thu hẹp khoảng cách giữa mô phỏng với thực tế bằng cách tạo ra đề xuất dựa trên logic nghiệp vụ, cho phép nó xây dựng dữ liệu chỉ trong vài ngày thay vì vài tháng hay vài năm. Theo ông Pasztor: “Công cụ như ChatGPT hay Dali có thể tạo ra các mô hình, nhưng ta cần một lớp đảm bảo chất lượng như DiffuseDrive. Nền tảng sử dụng cả phương pháp phân tích thống kê cổ điển lẫn mới để hiểu ngữ cảnh dữ liệu hiện có rồi xây dựng thành nhiều điểm dữ liệu, giống như đám mây điểm”.

“Ví dụ với công nghệ tự lái cấp độ 2, chúng tôi xây dựng bản đồ nhiệt tình huống đỗ xe và phân bố vị trí vật thể. Sau đó nền tảng của DiffuseDrive xác định ở vài thời điểm bản đồ thiếu vài vật thể lớn nằm gần nhau. Bằng cách phân phối dữ liệu rộng hơn, chúng tôi cải thiện đến 40% hiệu suất”, ông Pasztor giải thích.

DiffuseDrive không phát triển chuyên môn trong lĩnh vực nào cả. Công ty phân tích tài liệu của khách hàng và dữ liệu thiết kế vận hành (ODD) thực tế. Sau khi có dữ liệu cơ bản, DiffuseDrive tiến hành phân đoạn ngữ nghĩa, gắn nhãn theo ngữ cảnh và trực quan, lập vòng giới hạn vật thể 2D hoặc 3D. Ông Pasztor nói rõ: “Mỗi lúc khách hàng lập bản đồ, bản đồ điểm dữ liệu sẽ được lấp đầy, không chỉ lấp đầy khoảng trống mà còn mở rộng kiến thức về ODD”.

    Nổi bật
        Mới nhất
        Giải pháp cho tình trạng khan hiếm dữ liệu đào tạo robot và AI
        • Mặc định

        POWERED BY ONECMS - A PRODUCT OF NEKO