Bạn đã nghe đến dữ liệu tổng hợp (Synthetic Data)?
Bạn đã bao giờ nghe về synthetic data? Nếu chưa hãy cùng đọc và tìm hiều ở bài viết này nhé!
Bài viết được trình bày bởi Ngọc Tuyết ngày 29/07/2022 và được tham khảo chính từ bài viết của Marta Batlle.
Hãy chơi một trò chơi trước khi bắt đầu vào bài viết. Nhìn vào hình ảnh bên dưới và đoán xem bức ảnh nào là người thật?
Ngày nay, chúng ta có thể thấy sự xuất hiện của AI ở bất kỳ đâu. Như khi tìm một thứ gì đó trên Google, hay khi nhận đề xuất nên xem gì tiếp theo trên trang Netflix hoặc Youtube, hay khi trình xử lý văn bản đề xuất cho chúng ta một cách mới để diễn đạt nội dung, hoặc khi tìm đường đi ngắn nhất trên Google Map,...
Để một máy tính có thể thực hiện nhiều nhiệm vụ khó khăn như vậy, nó đòi hỏi một lượng lớn thông tin mà không phải lúc nào cũng có sẵn. Dữ liệu có chất lượng cao rất khó lấy, hay nói đúng hơn là vì nó rất tốn kém để thu thập (ví dụ như hình ảnh về y tế), vì khó có công cụ nào dễ dàng truy cập tổng hợp dữ liệu này (ví dụ như các tình huống trong thế giới thực) và vì những lo ngại về quyền riêng tư.
Chúng ta có thể chia sẻ dữ liệu an toàn không?
Công nghệ tăng cường quyền riêng tư là một giải pháp đầy hứa hẹn để tạo điều kiện chia sẻ dữ liệu trong khi vẫn bảo toàn đầy đủ quyền riêng tư của cá nhân. Trong thực tế, Gartner đã nhận định mô hình về tính toán nâng cao quyền riêng tư và trí tuệ nhân tạo là 2 trong 12 chiến lược dẫn đầu của xu hướng công nghệ năm 2022, bên cạnh đó còn có dự đoán rằng vào năm 2024, 60% dữ liệu được sử dụng để phát triển AI và phân tích dự án sẽ được tạo ra một cách tổng hợp.
Dữ liệu tổng hợp là gì?
Tạo tổng hợp dữ liệu là một kỹ thuật mô hình hóa cho phép chúng ta tạo ra dữ liệu tổng hợp (synthetic) nhưng thực sự thực tế (realistic).
Thực tế (realistic) có nghĩa là nó sẽ giữ lại các thuộc tính thống kê giống như tập dữ liệu ban đầu, vì vậy chúng ta sẽ đạt được kết luận tương tự với phiên bản thực.
Tổng hợp (synthetic) có nghĩa là tập dữ liệu sẽ không còn là tập ban đầu, và các chủ thể hoặc thực thể riêng lẽ sẽ không thể nhận dạng được.
Làm thế nào để tạo ra dữ liệu tổng hợp?
Mạng đối nghịch tạo sinh (Generative Adversarial Networks - GANs) đã thu được rất nhiều sức hút trong lĩnh vực dữ liệu tổng hợp sau khi cho thấy những kết quả đầy hứa hẹn.
GANs là một loại mô hình của Deep Learning do Ian J. Goodfellow cùng các đồng nghiệp đề xuất vào năm 2014 và đã phát triển thành nhiều kiến trúc khác nhau.
GAN bao gồm hai mạng nơ-ron được huấn luyện đồng thời: một là mạng tạo sinh có thể tạo ra các mẫu mới, và một là mạng phân biệt có thể cố gắng phát hiện xem đó là mẫu thật hay giả.
GAN cho phép chúng ta tạo ra dữ liệu tổng hợp rất thực tế.
Ví dụ, ta có một người thợ giả mạo nghệ thuật - người tạo ra tranh - người cố gắng giả mạo các bức tranh, và một người kiểm tra nghệ thuật - người phân biệt tranh - người cố gắng phát hiện những bức tranh bắt chước. Cả 2 người này không ngừng cố gắng để vượt qua nhau, bởi người giả mạo tranh càng giỏi thì người phân biệt tranh càng phải giỏi hơn để phân biệt các bức tranh thật giả.
Có nhiều lựa chọn thay thế cho GANs để tạo dữ liệu tổng hợp, ví như mô hình tự động khôi phục và mã tự động biến đổi.
Quay lại với trò chơi ban đầu, bạn có phân biệt được đâu là bức tranh giả? Tất cả đều là giả!!!
Cả 2 bức hình đều được tạo ra từ GANs vào năm 2018, không có nào trong số hình tồn tại trong thế giới thực.
Xem thêm thông tin về bài viết tại các địa chỉ sau:
[1] https://medium.com/@martabatlle/what-is-synthetic-data-4d81552ff3cb