For a Human-Centered AI

Ricerca e Innovazione – l’eccellenza italiana batte i giganti dell’Hi-Tech

7 Luglio 2025

In Italia e in Europa esiste una ricerca di altissimo livello, sviluppata sia nelle università sia nei centri di eccellenza. Un caso emblematico arriva da Trento: la Fondazione Bruno Kessler (FBK) e in particolare il team dell’Unità Technologies of vision (TeV) ha recentemente conquistato il primo posto nella prestigiosa competizione internazionale BOP Benchmark for 6D Object Pose Estimation Challenge 2024, dedicata agli algoritmi di riconoscimento delle immagini senza fase di addestramento con il metodo FreeZe v2 .

Il risultato è significativo: il team FBK ha superato 50 concorrenti a livello globale, tra cui team di colossi come NVIDIA, Meta e Naver Labs.

Un traguardo che dimostra come si possa competere e vincere anche partendo da contesti non metropolitani, a patto di avere talento, visione e investimenti mirati.

Oggi è ricerca, ma domani può diventare applicazione concreta: nello spazio, nei satelliti, nella sicurezza, nella manutenzione delle infrastrutture o nella manifattura avanzata. Il prossimo passo è il trasferimento tecnologico: servono politiche per collegare questi risultati all’impresa, creare un ecosistema imprenditoriale fertile e mettere a disposizione i fondi necessari.

LINGUAGGIO, VISIONE E ROBOTICA: IL PROGETTO CHE PUNTA A FAR CAPIRE AL ROBOT COSA FARE, COME E DOVE

L’Unità Technologies of vision di FBK sta lavorando anche su un progetto all’avanguardia che unisce linguaggio naturale, visione artificiale e manipolazione robotica. L’idea è ambiziosa: permettere a un robot di interpretare comandi scritti o parlati, comprendere la scena visiva che ha davanti e agire di conseguenza, in modo autonomo e affidabile. Il focus è sulla manipolazione robotica, cioè sulla capacità del robot di interagire fisicamente con gli oggetti: afferrarli, spostarli, evitarli.

La sfida principale è dotare il robot di una forma di “ragionamento spaziale”: ad esempio, capire se un oggetto è accessibile o se deve prima spostarne altri in uno scenario affollato. Si sfruttano modelli linguistici avanzati come GPT-4, combinati con algoritmi sviluppati internamente per colmare le lacune nella comprensione dello spazio – un punto debole degli LLM attuali. Per affinare queste capacità, il team sta lavorando su come generare nuovi dati specifici.

Il sistema si basa su una telecamera 3D che rileva colore e profondità tramite una nuvola di punti nello spazio. Un QR code sul braccio del robot serve a calibrare la telecamera rispetto al sistema di riferimento del braccio robotico. Il flusso funziona così: l’utente fornisce un’immagine della scena e un’istruzione (“prendi la tazza a sinistra della bottiglia”), il modello elabora la richiesta e restituisce come output il punto di presa ottimale. Il robot, dotato di un sistema di cinematica inversa, esegue il movimento evitando collisioni con sé stesso, la telecamera o l’ambiente.

Nei laboratori più avanzati, tra cui quello di FBK, si sta lavorando verso un Visual-Language-Action Model unificato: un’unica rete neurale che sappia collegare visione, linguaggio e azione in modo fluido. Sono già in uso telecamere industriali ad altissima precisione (0,2 mm, costo >15.000 €) per test su scenari complessi.

C’è già un primo paper pubblico sul tema, e il laboratorio di robotica di FBK è attualmente tra i primi in Italia a lavorare sull’integrazione tra linguaggio naturale, visione artificiale e manipolazione robotica. Un ambito strategico per lo sviluppo di collaborazioni industriali e scientifiche.

 

Nell’immagine di copertina il team FBK: Fabio Poiesi,  Davide Boscaini, Andrea Caraffa e Amir Hamza. 

 

 


Autore/i