NeRF (Trường bức xạ nơ-ron) là gì?

Hình ảnh 3D được kết xuất bằng máy tính, được tạo ra thông qua nhiều kỹ thuật đồ họa kỹ thuật số khác nhau, sẽ có một số thuộc tính riêng biệt xác định chất lượng và tính chân thực của hình ảnh. Ví dụ:

Các khía cạnh hình học, chẳng hạn như định vị, định hướng và tỷ lệ của các mô hình 3D trong cảnh
Các khía cạnh ánh sáng, chẳng hạn như bóng, độ sáng, màu sắc và phản xạ
Độ trong suốt và độ mờ cho thấy ánh sáng đi qua các vật liệu như thủy tinh hoặc sương mù như thế nào
Khối lượng và mật độ, chẳng hạn như mật độ của khói hoặc mây
Kết cấu mô phỏng vật liệu như vải, gỗ hoặc kim loại

Sự lựa chọn màu sắc và phân bố cũng đóng một vai trò quan trọng trong tác động trực quan của hình ảnh. Việc tạo bóng xác định cách chiếu sáng các khu vực bề mặt khác nhau, tạo cảm giác về chiều sâu và hình dáng.

NeRF kết hợp các kỹ thuật đồ họa máy tính với kiến trúc mạng nơ-ron để xử lý tất cả các khía cạnh trước đó.

Hình ảnh sau đây là một ví dụ về hình ảnh 3D được kết xuất bằng máy tính.

Kiến trúc của trường bức xạ nơ-ron

Để tạo phép biểu diễn cảnh 3D, NeRF sử dụng một khía cạnh nơ-ron được gọi là perceptron nhiều lớp (MLP). Đây là kiến trúc mạng nơ-ron được kết nối hoàn toàn. MLP là một mô hình nền tảng trong mạng nơ-ron và học sâu. Mô hình này được đào tạo để ánh xạ các tọa độ không gian và hướng xem tới các giá trị màu sắc và mật độ. MLP sử dụng một loạt các cấu trúc toán học sắp xếp các đầu vào, chẳng hạn như vị trí trong không gian 3D hoặc hướng xem 2D, để xác định giá trị màu sắc và mật độ tại mỗi điểm trong hình ảnh 3D.

Mạng cũng học cách thay đổi độ sáng và màu sắc của các tia sáng trong cảnh. Bằng cách xây dựng hiểu biết về các tia này, được gọi là lập mô hình bức xạ, mạng có thể hiển thị các màu sắc và mật độ khác nhau từ các góc độ khác nhau.

Tìm hiểu về học sâu

Các loại trường bức xạ nơ-ron

Các phiên bản đầu tiên của NeRF rất chậm và khó tối ưu hóa và cần đầu vào từ ảnh để so khớp ánh sáng sử dụng cùng một tia máy ảnh. Kể từ đó, đã có một số biến thể được cải thiện dựa trên công nghệ ban đầu.

PixelNeRF

Một trong những hình thức mới ban đầu của NeRF là PixelNeRF (CPVR 2021). Triển khai này đưa vào sử dụng một kiến trúc tích chập hoàn toàn, có thể dựa trên điều kiện các đầu vào hình ảnh đơn lẻ. Cách tiếp cận này sẽ không cần nhiều chế độ xem được hiệu chỉnh và có tổ chức, đồng thời giảm tổng tài nguyên điện toán cần thiết. Cách tiếp cận mới này đã hợp lý hóa quá trình tạo và tối ưu hóa NeRF.

Mega-NeRD

Mega-NeRD (CVPR 2022) là một khung NeRF khác đặc biệt hữu ích khi xử lý các cảnh quy mô lớn. Khung này cung cấp một thuật toán phân cụm hình học thay thế và cấu trúc mạng thưa thớt, cho phép xử lý hình ảnh với các điều kiện ánh sáng đa dạng. NeRF được tối ưu hóa này sử dụng lưới bức xạ nơ-ron thưa thớt (SNeRG) để chụp và kết xuất các môi trường trong thế giới thực một cách hiệu quả.

NSVF

Trường điểm ảnh ba chiều thưa thớt nơ-ron (NSVF) là một NeRF có thể bỏ qua bất kỳ điểm ảnh trống nào trong giai đoạn kết xuất, giúp tăng tốc độ kết xuất. Kỹ thuật này học các cấu trúc điểm ảnh trong các ô mạng, cho phép tạo ra hình ảnh chất lượng cao mà không cần điểm nhìn cụ thể.

Plenoptic voxel

Thay vì sử dụng mạng nơ-ron perceptron nhiều lớp, giải pháp sáng tạo Plenoptic Voxel (2021) sử dụng lưới 3D thưa thớt. Với lưới này, bạn có thể tăng tốc độ kết xuất của các mô phỏng mới trong khi vẫn duy trì độ trung thực của hình ảnh thông qua nội suy điểm ảnh ba chiều.