Helix: Un model revoluționar pentru controlul umanoid generalist

Helix este un model inovator Vision-Language-Action (VLA) care integrează percepția, înțelegerea limbajului și controlul robotic pentru a depăși provocările majore din domeniul roboticii. Acesta marchează o serie de premiere:

Control complet al părții superioare a corpului – Este primul model VLA care generează control continuu de mare viteză pentru întregul trunchi umanoid, incluzând încheieturile, torsul, capul și degetele individuale.
Colaborare multi-robot – Helix este primul model VLA care permite interacțiunea simultană între doi roboți, aceștia reușind să colaboreze pentru îndeplinirea unui scop comun, manipulând obiecte necunoscute anterior.
Manipulare generalizată a obiectelor – Roboții echipați cu Helix pot ridica aproape orice obiect de uz casnic, chiar dacă nu l-au mai întâlnit anterior, doar urmând instrucțiuni în limbaj natural.
Un singur model neuronal – Spre deosebire de metodele anterioare, Helix utilizează o singură rețea neuronală pentru a învăța multiple comportamente (ridicarea și plasarea obiectelor, utilizarea sertarelor și frigiderelor, colaborarea între roboți), fără a necesita ajustări specifice fiecărei sarcini.
Pregătit pentru implementare comercială – Helix rulează în întregime pe GPU-uri integrate cu consum redus de energie, fiind astfel gata pentru implementare practică.

O nouă etapă în dezvoltarea roboților umanizi

Domeniul casnic este una dintre cele mai dificile provocări pentru robotică. Spre deosebire de mediile industriale controlate, casele sunt pline de obiecte variate – veselă fragilă, haine mototolite, jucării împrăștiate – fiecare având forme, dimensiuni, culori și texturi imprevizibile. Pentru ca roboții să devină utili în locuințe, aceștia trebuie să fie capabili să genereze comportamente inteligente la cerere, chiar și pentru obiecte necunoscute.

Metodele actuale de instruire robotică sunt extrem de costisitoare și consumatoare de timp. Predarea unui singur comportament nou necesită fie ore întregi de programare manuală, fie mii de demonstrații. Însă, în alte domenii ale inteligenței artificiale, acest tip de generalizare instantanee a fost deja atins. Helix propune o abordare revoluționară: transpunerea cunoștințelor semantice din modelele Vision-Language (VLM) direct în acțiuni robotice, schimbând fundamental scalabilitatea roboticii.

Helix: Un model VLA “System 1, System 2” pentru controlul intregului corp superior

Helix (www.figure.ai/news/helix) utilizează o arhitectură duală, inspirată din teoria cognitivă a sistemelor de gândire:

Sistemul 2 (S2) – Un VLM preantrenat pe internet, care funcționează la 7-9 Hz și se ocupă de înțelegerea scenei și a limbajului, permițând generalizarea pe scară largă.
Sistemul 1 (S1) – O politică de control vizuomotor rapidă, care transformă reprezentările semantice produse de S2 în acțiuni robotice precise la 200 Hz.

Această arhitectură decuplată permite fiecărui sistem să opereze la viteza optimă: S2 analizează obiectivele pe termen lung, iar S1 ajustează acțiunile în timp real.

Avantajele Helix față de metodele anterioare

Viteză și generalizare – Helix atinge viteza politicilor de învățare comportamentală specializate, dar se adaptează instantaneu la mii de obiecte necunoscute.
Scalabilitate – Modelul controlează acțiuni de mare complexitate fără a utiliza metode complicate de discretizare a acțiunilor, care limitează modelele anterioare.
Simplitate arhitecturală – Helix se bazează pe arhitecturi standard: un VLM open-source pentru S2 și un transformer vizuomotor pentru S1.
Separarea funcțiilor – Prin separarea S1 și S2, fiecare poate fi optimizat individual, fără constrângeri legate de spațiile de observație sau acțiune comune.

Detalii despre model și procesul de antrenare

Datele

Pentru antrenarea Helix, a fost colectat un set divers de date de 500 de ore de comportamente teleoperate, capturate de mai mulți roboți și operatori. Generarea instrucțiunilor de antrenare a fost realizată automat, utilizând un VLM care analizează segmente video și răspunde la întrebarea:
“Ce instrucțiune i-ai fi dat robotului pentru a executa această acțiune?”

Toate obiectele utilizate în antrenament au fost excluse din evaluări, pentru a evita contaminarea rezultatelor.

Arhitectura

Sistemul Helix include două componente principale:

S2 – Un VLM cu 7 miliarde de parametri, care analizează imagini monoculare ale robotului și starea acestuia (poziția încheieturilor și a degetelor).
S1 – Un transformer encoder-decoder cu 80 milioane de parametri, specializat în control vizuomotor de mare viteză.

Helix controlează 35 de grade de libertate (DoF) la 200 Hz, incluzând poziția încheieturilor, flexia și abducția degetelor, postura torsului și orientarea capului.

Implementare și execuție optimizată

Helix rulează pe roboți umanoizi Figure, echipați cu GPU-uri integrate cu consum redus. Modelul este împărțit astfel:

S2 – Se execută ca proces asincron, procesând continuu observațiile și comenzile lingvistice și actualizând un vector latent cu intenția comportamentală.
S1 – Funcționează în timp real, aplicând acțiuni robotice precise la 200 Hz, folosind vectorul latent de la S2 pentru condiționare.

Această strategie asincronă permite rularea Helix la viteza maximă, fără discrepanțe între antrenament și implementare.

Performanță și demonstrații

Control de precizie pentru intregul corp superior

Helix coordonează mișcările complexe ale degetelor, mâinilor, capului și torsului, menținând stabilitatea feedback-ului vizual – un obstacol semnificativ în modelele anterioare.

Colaborare Multi-Robot Zero-Shot

Într-un scenariu avansat, doi roboți echipați cu Helix au colaborat pentru sortarea alimentelor într-o bucătărie, urmând instrucțiuni în limbaj natural precum:
“Dă robotului din dreapta punga cu biscuiți” sau “Pune punga cu biscuiți în sertarul deschis.”

Aceasta marchează prima demonstrație de manipulare colaborativă între doi roboți VLA.

“Ridică Orice”

Roboții Helix pot ridica mii de obiecte casnice doar printr-o comandă vocală, cum ar fi “Ridică obiectul din desert”, chiar dacă acesta nu a fost întâlnit anterior.

Helix este primul model VLA capabil să controleze întregul trunchi umanoid prin limbaj natural. Acesta deschide noi perspective pentru robotica domestică, eliminând necesitatea antrenamentelor extinse și costisitoare.

Aceste rezultate sunt doar începutul. Helix reprezintă un salt major în dezvoltarea roboților umanoizi, iar viitorul său este promițător. 🚀

Helix: Un model revoluționar pentru controlul umanoid generalist

O nouă etapă în dezvoltarea roboților umanizi

Helix: Un model VLA “System 1, System 2” pentru controlul intregului corp superior

Avantajele Helix față de metodele anterioare