For a Human-Centered AI

Ricostruzione 3D: premiato l’algoritmo dell’unità 3D Optical Metrology (3DOM)

8 Ottobre 2018

Best Paper Award al lavoro co-authored da Fabio Remondino (FBK-3DOM) presentato all’International Workshop on Recovering 6D Object Pose dell'ECCV 2018 di Monaco di Baviera

Il paper Image-to-Voxel Model Translation with Conditional Adversarial Networks, co-authored dal responsabile dell’Unità 3D Optical Metrology (3DOM) della Fondazione Bruno Kessler  Fabio Remondino, è stato premiato con il Best Paper Award all’International Workshop on Recovering 6D Object Pose svoltosi all’interno dell’European Conference on Computer Vision 2018.

Il paper – premiato tra i cinque selezionati ed ammessi al Workshop – illustra un innovativo algoritmo capace di generare informazioni 3D a partire dalle immagini utilizzando reti antagoniste generative (Generative Adversarial Networks, GAN) con una capacità di ricostruzione migliore per qualità e risoluzione dei dettagli rispetto ai modelli di ricostruzione di scene con oggetti multipli non rigidi.

L’algoritmo, oltre a migliorare gli attuali metodi di ricostruzione 3D, dimostra come reti volumetriche contraddittorie condizionali possono generare modelli voxel di scene complesse con più oggetti e che saltare le connessioni tra strati convoluzionali 2D e deconvoluzionali 3D facilita la ricostruzione di dettagli fini e di qualità più alta di scene disordinate con più elementi 3D di diverse classi.

“Il metodo presentato nel paper utilizza corrispondenze tra sagome 2D e sezioni di un campo di visione della camera al fine di prevedere il voxel model di una scena con più oggetti – spiega Fabio Remondino -. Abbiamo sfruttato voxel a forma di piramide e una rete di generatori con collegamenti di salto tra mappe 2D e 3D, lavorando direttamente in 3D, e sviluppato un nuovo framework Z-GAN per la traduzione di una singola immagine a colori a un voxel model di una scena. Per “addestrarlo” e dimostrarne efficienza e affidabilità sono stati raccolti una serie di dati con circa 36.000 immagini e modelli 3D ground-truth, mappe di profondità e object pose. L’esito – conclude il ricercatore – è che il modello sperimentato restituisce importanti risultati di ricostruzione di scene 3D, più performante dei moderni modelli di ricostruzione se confrontato con lo stato dell’arte, sia per numero di oggetti ricostruiti sia per qualità e livello di dettaglio geometrico”.

Gli ambiti di applicazione possono essere molteplici: dalla Creative Industry ai beni culturali, dalla robot vision alla 6D pose estimation, dalla realtà aumentata alla guida autonoma.


Autore/i