Dữ liệu tổng hợp là gì?

Sau đây là thông tin tóm lược về một số công nghệ tiên tiến mà bạn có thể sử dụng để tạo dữ liệu tổng hợp.

Mạng đối nghịch tạo sinh

Các mô hình mạng đối nghịch tạo (GAN) sử dụng hai mạng nơ-ron hoạt động cùng nhau để tạo và phân loại dữ liệu mới. Một mạng sử dụng dữ liệu thô để tạo ra dữ liệu tổng hợp trong khi mạng thứ hai đánh giá, mô tả đặc điểm và phân loại thông tin đó. Cả hai mạng cạnh tranh với nhau cho đến khi mạng đánh giá không còn có thể phân biệt giữa dữ liệu tổng hợp và dữ liệu gốc.

Bạn có thể sử dụng GAN để tạo dữ liệu được tạo ra theo cách nhân tạo có tính tự nhiên cao và trình bày chặt chẽ các biến thể của dữ liệu trong thế giới thực, như video và hình ảnh trông như thật.

Đọc về mạng đối nghịch tạo (GAN)”

Bộ mã hóa tự động biến đổi

Bộ mã hóa tự động biến đổi (VAE) là các thuật toán tạo ra dữ liệu mới dựa trên các phép biểu diễn dữ liệu gốc. Thuật toán không giám sát học cách phân phối dữ liệu thô, sau đó sử dụng kiến trúc bộ mã hóa-giải mã để tạo dữ liệu mới thông qua chuyển đổi kép. Bộ mã hóa nén dữ liệu đầu vào thành một phép biểu diễn có chiều thấp hơn, còn bộ giải mã tái tạo dữ liệu mới từ phép biểu diễn ẩn này. Mô hình sử dụng các phép tính xác suất để quá trình tái tạo diễn ra trơn tru.

VAE hữu ích nhất khi tạo dữ liệu tổng hợp rất tương đồng với các biến thể. Ví dụ: bạn có thể sử dụng VAE khi tạo hình ảnh mới.

Mô hình dựa trên bộ chuyển hóa

Máy biến áp được đào tạo trước tổng hợp hoặc các mô hình dựa trên GPT sử dụng các bộ dữ liệu gốc lớn để hiểu cấu trúc và sự phân phối điển hình của dữ liệu. Bạn chủ yếu sử dụng chúng trong quá trình xử lý ngôn ngữ tự nhiên (NLP). Ví dụ: nếu một mô hình văn bản dựa trên bộ chuyển đổi được đào tạo trên một tập dữ liệu lớn của văn bản tiếng Anh, nó sẽ học cấu trúc, ngữ pháp và thậm chí cả các sắc thái của ngôn ngữ. Khi tạo dữ liệu tổng hợp, mô hình bắt đầu với văn bản hạt giống (hoặc lời nhắc) và dự đoán từ tiếp theo dựa trên xác suất mà nó đã học, nhờ đó tạo thành một chuỗi hoàn chỉnh.

Đọc về GPT”