Dữ liệu tổng hợp trong thị giác máy tính là gì? Tổng quan

Dữ liệu luôn là yếu tố thúc đẩy trong các lĩnh vực như phân tích và trí tuệ nhân tạo (AI). Thực tế, cách chúng ta thu thập, tạo và sử dụng dữ liệu đang định hình tương lai của các hệ thống thông minh. Ví dụ, xe tự lái phụ thuộc vào hàng triệu hình ảnh được dán nhãn và các chỉ số từ cảm biến, từ biển báo giao thông đến chuyển động của người đi bộ, để học cách lưu thông trên đường một cách an toàn.

Một trong những loại dữ liệu quan trọng nhất thúc đẩy tiến trình này, đặc biệt là trong các lĩnh vực như xe tự lái và an ninh, chính là dữ liệu trực quan như hình ảnh và video.

Đặc biệt, lĩnh vực AI cho phép máy móc diễn giải thông tin trực quan này được gọi là thị giác máy tính. Nó giúp các hệ thống hiểu và phân tích các dữ liệu đầu vào trực quan giống như con người, hỗ trợ các tác vụ như nhận diện khuôn mặt, phát hiện biển báo giao thông và phân tích hình ảnh y tế.

Tuy nhiên, việc thu thập các tập dữ liệu trực quan quy mô lớn, chất lượng cao từ thế giới thực có thể tốn thời gian, chi phí đắt đỏ và thường làm dấy lên các lo ngại về quyền riêng tư. Đó là lý do tại sao các nhà nghiên cứu đang tích cực khám phá khái niệm tận dụng dữ liệu tổng hợp.

Dữ liệu tổng hợp đề cập đến các hình ảnh trực quan được tạo ra một cách nhân tạo, mô phỏng gần giống với hình ảnh và video trong thế giới thực. Nó được tạo ra bằng cách sử dụng các kỹ thuật như mô hình hóa 3D, mô phỏng máy tính và các phương pháp AI tạo sinh như Mạng đối nghịch tạo sinh (GANs), vốn học các mẫu từ dữ liệu thực để tạo ra các ví dụ mới mang tính chân thực.

Dữ liệu tổng hợp được kỳ vọng sẽ đóng một vai trò quan trọng trong phát triển AI trong tương lai gần - với dự đoán của Gartner rằng đến năm 2030, nó sẽ trở nên thiết yếu hơn cả dữ liệu thực tế. Trong bài viết này, chúng ta sẽ khám phá dữ liệu tổng hợp là gì trong bối cảnh thị giác máy tính, cách nó được tạo ra và nơi nó đang được áp dụng trong các tình huống thực tế. Hãy cùng bắt đầu!

Link to this sectionDữ liệu tổng hợp trong thị giác máy tính là gì?#

Giả sử bạn muốn huấn luyện một mô hình AI thị giác để phát hiện các đối tượng trong nhiều môi trường và điều kiện đa dạng. Việc chỉ dựa vào dữ liệu thực tế có thể gặp khó khăn và đôi khi bị giới hạn.

Trong khi đó, dữ liệu tổng hợp có thể được sử dụng để tạo ra tập dữ liệu phù hợp, chứa các đối tượng trong nhiều điều kiện được tạo ra nhân tạo. Sử dụng các công cụ như mô hình hóa 3D và các mô phỏng, các lập trình viên có thể tạo ra hình ảnh với khả năng kiểm soát chính xác các yếu tố như ánh sáng, góc độ và vị trí đối tượng. Điều này mang lại sự linh hoạt hơn cho quá trình huấn luyện mô hình so với dữ liệu thực tế.

Dữ liệu tổng hợp đặc biệt hữu ích khi việc thu thập dữ liệu thực tế gặp khó khăn hoặc bất khả thi. Ví dụ, việc huấn luyện một mô hình nhận diện con người trong nhiều tư thế như chạy, ngồi xổm hoặc nằm xuống sẽ đòi hỏi phải chụp hàng ngàn bức ảnh trong nhiều bối cảnh, góc độ và điều kiện ánh sáng khác nhau.

Mặt khác, với dữ liệu tổng hợp, các lập trình viên có thể dễ dàng tạo ra các biến thể này kèm theo nhãn chính xác, giúp tiết kiệm thời gian và công sức trong khi vẫn cải thiện được hiệu suất mô hình.

Hình 1. Một tập dữ liệu tổng hợp với các tư thế con người và các biến thể ánh sáng khác nhau (nguồn).

Link to this sectionDữ liệu tổng hợp so với dữ liệu thực trong AI#

Tiếp theo, hãy xem xét kỹ hơn những khác biệt giữa dữ liệu tổng hợp và dữ liệu thực. Cả hai đều có những ưu điểm và nhược điểm khi đề cập đến việc huấn luyện các mô hình AI.

Ví dụ, dữ liệu tổng hợp hữu ích khi khó thu thập dữ liệu thực, nhưng nó có thể không nắm bắt được mọi chi tiết nhỏ trong cuộc sống thực. Đồng thời, dữ liệu thực xác thực hơn, nhưng lại khó tìm nguồn, tốn thời gian để dán nhãn và có thể không bao phủ được mọi tình huống.

Bằng cách kết hợp dữ liệu tổng hợp và dữ liệu thực, các lập trình viên có thể tận dụng lợi thế của cả hai. Sự cân bằng này giúp các mô hình AI học chính xác hơn, tổng quát hóa tốt hơn trên nhiều kịch bản khác nhau và giảm thiểu sai lệch (bias).

Hình 2. Dữ liệu tổng hợp so với dữ liệu thực trong AI. Hình ảnh từ tác giả.

Link to this sectionCái nhìn về tạo dữ liệu cho các mô hình thị giác máy tính#

Từ việc xây dựng thế giới ảo bằng các công cụ 3D đến việc tạo ra hình ảnh bằng AI tạo sinh, đây là một số phương pháp phổ biến được sử dụng để tạo dữ liệu huấn luyện tổng hợp cho các mô hình thị giác máy tính:

Mô hình hóa 3D: Các lập trình viên sử dụng phần mềm 3D để tạo ra các đối tượng và khung cảnh kỹ thuật số. Điều này cho phép kiểm soát hoàn toàn các yếu tố như ánh sáng, góc camera và vị trí đối tượng, đồng thời hữu ích cho việc tạo ra hình ảnh chân thực về con người, phương tiện và môi trường.
Mô phỏng: Những kỹ thuật này tái tạo các tình huống thực tế, như giao thông hoặc môi trường nhà máy, bằng cách sử dụng các công cụ dựa trên vật lý. Mô phỏng hữu ích cho việc tạo dữ liệu huấn luyện một cách an toàn trong các lĩnh vực như robot và xe tự lái.
Mạng đối nghịch tạo sinh: GANs là một loại mô hình học sâu bao gồm hai mạng: một mạng tạo hình ảnh và một mạng đánh giá chúng. Cùng nhau, chúng tạo ra những hình ảnh có tính chân thực cao, chẳng hạn như khuôn mặt con người hoặc đường phố, bằng cách học từ các ví dụ thực tế.
Tạo theo quy trình (Procedural generation): Kỹ thuật này sử dụng các quy tắc định sẵn hoặc các mô hình toán học để tự động tạo ra các cấu trúc trực quan phức tạp như địa hình, tòa nhà hoặc kết cấu. Nó thường được sử dụng trong các nền tảng trò chơi và mô phỏng, và có thể tạo ra các tập dữ liệu đa dạng ở quy mô lớn với sự can thiệp tối thiểu của con người.
Ngẫu nhiên hóa miền (Domain randomization): Kỹ thuật này có thể thay đổi ngẫu nhiên các yếu tố như ánh sáng, màu sắc và hình dạng đối tượng trong các khung cảnh tổng hợp. Mục tiêu đằng sau kỹ thuật này là giúp các mô hình tập trung vào những gì thực sự quan trọng, giúp chúng thích ứng tốt hơn với các môi trường thực tế.

Hình 3. Ví dụ về dữ liệu: (a) dựa trên mô hình 3D, (b) các khung cảnh đa đối tượng tổng hợp và (c) hình ảnh tập dữ liệu thực (nguồn).

Link to this sectionHuấn luyện mô hình AI thị giác với dữ liệu tổng hợp#

Bây giờ chúng ta đã thảo luận về một số phương pháp khác nhau được sử dụng để tạo dữ liệu tổng hợp, hãy cùng xem cách nó được sử dụng để huấn luyện các mô hình AI.

Sau khi được tạo, dữ liệu tổng hợp thường có thể được tích hợp trực tiếp vào quy trình huấn luyện giống như dữ liệu thực tế. Nó thường bao gồm các chú thích cần thiết, chẳng hạn như nhãn đối tượng, khung bao (bounding box) hoặc mặt nạ phân đoạn, nghĩa là nó có thể được sử dụng cho các tác vụ học có giám sát, nơi các mô hình học từ các cặp đầu vào-đầu ra được dán nhãn, mà không cần dán nhãn thủ công.

Trong quá trình huấn luyện, mô hình xử lý các hình ảnh tổng hợp để học cách phát hiện các đặc điểm, nhận diện các mẫu và phân loại đối tượng. Dữ liệu này có thể được sử dụng để xây dựng một phiên bản ban đầu của mô hình từ đầu hoặc để làm phong phú thêm một tập dữ liệu hiện có, giúp cải thiện hiệu suất mô hình.

Trong nhiều quy trình làm việc, dữ liệu tổng hợp cũng được sử dụng để tiền huấn luyện (pretraining), mang lại cho các mô hình một nền tảng hiểu biết rộng trước khi được tinh chỉnh với các ví dụ thực tế. Tương tự, nó được dùng để tăng cường dữ liệu bằng cách giới thiệu các biến thể được kiểm soát, như các điều kiện ánh sáng khác nhau, góc độ hoặc các lớp đối tượng hiếm, để cải thiện khả năng tổng quát hóa và giảm hiện tượng quá khớp (overfitting).

Bằng cách kết hợp dữ liệu tổng hợp và dữ liệu thực, các đội ngũ có thể huấn luyện các mô hình mạnh mẽ hơn, hoạt động tốt trên nhiều điều kiện khác nhau, đồng thời giảm sự phụ thuộc vào các nỗ lực thu thập dữ liệu thủ công tốn kém và mất thời gian.

Link to this sectionCác ứng dụng thực tế của dữ liệu tổng hợp trong thị giác máy tính#

Khi dữ liệu tổng hợp trở nên thực dụng và dễ tiếp cận hơn, chúng ta đang bắt đầu thấy nó được áp dụng trong nhiều trường hợp sử dụng AI thị giác trong thế giới thực. Hãy cùng khám phá một số ứng dụng trong thị giác máy tính có tác động mạnh nhất nơi nó đang được sử dụng.

Link to this sectionSử dụng dữ liệu tổng hợp để phát hiện đối tượng trong xe tự lái#

Dạy xe tự lái lái xe an toàn đòi hỏi phải huấn luyện các mô hình trên nhiều kịch bản, bao gồm cả các tình huống hiếm hoặc nguy hiểm. Tuy nhiên, việc thu thập dữ liệu thực cho các trường hợp biên (edge cases) này có thể là một thách thức và đôi khi không an toàn. Dữ liệu tổng hợp có thể giúp tạo ra các khung cảnh nơi các mô hình có thể học cách phát hiện đối tượng trong các tình huống khó khăn. Nó cũng có thể mô phỏng các cấu hình cảm biến khác nhau, điều này rất hữu ích vì không phải tất cả xe tự lái đều sử dụng cùng một loại phần cứng.

Nền tảng NVIDIA’s DRIVE Sim là một ví dụ tuyệt vời cho điều này. Nó tạo ra dữ liệu tổng hợp chất lượng cao bằng cách sử dụng các mô hình 3D chân thực, môi trường ảo và mô phỏng cảm biến. Nó cũng có thể tạo ra hình ảnh từ nhiều góc lái khác nhau từ một hình ảnh duy nhất. Sử dụng dữ liệu tổng hợp như thế này giúp giảm nhu cầu thử nghiệm thực tế đắt đỏ trong khi vẫn cung cấp cho mô hình sự đa dạng cần thiết để học tập hiệu quả.

Hình 4. Tạo nhiều góc nhìn lái xe từ một hình ảnh (nguồn).

Link to this sectionGiảm thiểu sai lệch trong AI chẩn đoán hình ảnh y tế bằng dữ liệu tổng hợp#

Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn cá thể có thể được huấn luyện tùy chỉnh cho các ứng dụng hình ảnh y tế. Tuy nhiên, dữ liệu huấn luyện thực tế thường chứa đựng các sai lệch vì nó có thể không đại diện đầy đủ cho bệnh nhân từ tất cả các nhóm nhân khẩu học.

Ví dụ, ung thư da thường ít được chẩn đoán ở những cá nhân có tông màu da sẫm hơn, dẫn đến dữ liệu hạn chế cho các nhóm dân số này. Sự mất cân bằng này có thể dẫn đến chẩn đoán sai và kết quả chăm sóc sức khỏe không bình đẳng, đặc biệt là trong các lĩnh vực như mô bệnh học, chụp X-quang ngực và da liễu.

Hình ảnh tổng hợp có thể đóng góp một phần trong việc thu hẹp khoảng cách dữ liệu này. Bằng cách tạo ra thêm các ví dụ đa dạng, chẳng hạn như các bất thường về mô khác nhau, một loạt các tình trạng phổi và tông màu da với các loại tổn thương khác nhau, dữ liệu tổng hợp có thể giúp cải thiện hiệu suất mô hình trên các nhóm chưa được đại diện đầy đủ.

Các nhà nghiên cứu hiện đang phát triển và xác thực các tập dữ liệu tổng hợp để hỗ trợ các mục tiêu này. Họ cũng đang khám phá cách dữ liệu tổng hợp có thể được sử dụng để kiểm tra các công cụ y tế và các chiến lược điều trị mà không cần dựa vào hồ sơ bệnh nhân thực, giúp tăng tốc nghiên cứu đồng thời bảo vệ quyền riêng tư của bệnh nhân. Thông qua công việc này, dữ liệu tổng hợp đang mở đường cho các hệ thống AI y tế bao trùm, chính xác và đạo đức hơn.

Link to this sectionThúc đẩy AI nông nghiệp bằng dữ liệu tổng hợp cho canh tác chính xác#

Xây dựng các hệ thống AI thị giác cho các ứng dụng nông nghiệp phụ thuộc vào khả năng tiếp cận lượng lớn dữ liệu được dán nhãn. Tuy nhiên, việc thu thập và dán nhãn hình ảnh cây trồng, dịch bệnh và điều kiện đồng ruộng rất chậm, đắt đỏ và thường bị giới hạn bởi các yếu tố như thời tiết, mùa vụ hoặc sự khó khăn khi tiếp cận một số khu vực nhất định.

Những thách thức này khiến việc huấn luyện các mô hình thị giác máy tính để xử lý các tác vụ như phát hiện bệnh cây trồng, giám sát mùa màng hoặc dự đoán năng suất trở nên khó khăn. Đó là lúc dữ liệu tổng hợp có thể giúp ích - bằng cách mô phỏng các môi trường canh tác khác nhau để tạo ra các ví dụ huấn luyện hữu ích.

Hình 5. Sử dụng hình ảnh tổng hợp để cải thiện khả năng phát hiện dịch bệnh (nguồn).

Link to this sectionCác điểm chính#

Sử dụng dữ liệu tổng hợp đại diện cho một bước tiến quan trọng trong việc huấn luyện mô hình AI, đặc biệt là đối với các hệ thống thị giác máy tính ở những khu vực mà dữ liệu thực tế bị hạn chế hoặc khó thu thập. Thay vì chỉ dựa vào hình ảnh hoặc video thực tế, vốn có thể đắt đỏ, tốn thời gian hoặc gây lo ngại về quyền riêng tư, dữ liệu tổng hợp cho phép chúng ta tạo ra các hình ảnh được dán nhãn, chân thực theo yêu cầu.

Nó giúp việc huấn luyện các mô hình AI thị giác cho các tác vụ như lái xe tự động, phát hiện dịch bệnh hoặc giám sát mùa màng trở nên dễ dàng hơn. Khi AI tiếp tục phát triển, dữ liệu tổng hợp sẽ đóng một vai trò lớn hơn nữa trong việc thúc đẩy đổi mới và cải thiện khả năng tiếp cận trong các ngành công nghiệp.

Tìm hiểu thêm về AI trên kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng đang phát triển của chúng tôi. Khám phá tác động của các ứng dụng như AI trong xe tự lái và thị giác máy tính trong nông nghiệp. Khám phá các tùy chọn cấp phép của chúng tôi và hiện thực hóa các dự án AI thị giác của bạn.