U avgustu 2025. godine na arXiv-u je objavljen rad Hierarchical Reasoning Model (HRM), inovativna rekurentna arhitektura koja predstavlja pokušaj da se veštačka inteligencija približi načinu na koji ljudski mozak zapravo razmišlja i obrađuje informacije. Za razliku od današnjih dominantnih modela zasnovanih na Transformer arhitekturi, koji uspešno generišu tekst i obrađuju ogromne količine podataka, HRM se fokusira na duboko analitičko razmišljanje i stabilnu analizu kroz vreme.
Osnovna inspiracija dolazi iz neurobiologije: u mozgu postoje procesi koji funkcionišu na različitim vremenskim skalama — od brzih, intuitivnih reakcija, do sporijih i apstraktnijih procesa planiranja. HRM pokušava da reprodukuje upravo tu višeslojnu dinamiku kroz hijerarhijsku strukturu rekurentnih modula koji se međusobno dopunjuju.
Za razliku od standardnih velikih jezičkih modela (LLM) koji se u analitičkom razmišljanju često oslanjaju na pristup poznat kao Chain-of-Thought (CoT) — tj. razlaganje problema u eksplicitne tekstualne međukorake — HRM uvodi koncept latentnog analitičkog razmišljanja. To znači da model ne mora da ispisuje svaki misaoni korak u obliku teksta, već proces zaključivanja ostaje unutar njegovih unutrašnjih stanja. Na taj način, analitičko razmišljanje postaje stabilnije, efikasnije i manje podložno greškama, jer izostaje „šum“ i pogrešno formulisan međutekst koji često zna da zavara i sam model.
Drugim rečima, dok CoT modeli „glasno razmišljaju“ u tekstu i oslanjaju se na pravilan niz rečenica kako bi došli do rešenja, HRM se ponaša više kao čovek koji rešava složen problem u tišini, oslanjajući se na unutrašnju dinamiku misli, a zatim iznosi samo konačan odgovor.
Ključni doprinosi
1. Latentno analitičko razmišljanje
Jedna od ključnih inovacija HRM-a jeste prelazak sa eksplicitnog Chain-of-Thought (CoT) analitičkog razmišljanja na latentno analitičko razmišljanje. Dok CoT modeli rešavaju zadatak tako što „glasno razmišljaju“ i eksplicitno generišu međukorake u tekstualnom obliku, HRM uvodi drugačiji pristup — proces zaključivanja se odvija unutar unutrašnjih stanja modela, a ne u otvorenom tekstu.
Ovakav dizajn ima nekoliko važnih posledica:
- Smanjenje akumulacije grešaka: U CoT pristupu svaka pogrešno formulisana rečenica ili netačan međukorak može da dovede do pogrešnog krajnjeg odgovora. Kod HRM-a, analitičko razmišljanje se odvija u latentnom prostoru, što znači da model ne zavisi od kvaliteta generisanih rečenica već od stabilne dinamike svojih unutrašnjih reprezentacija.
- Efikasnost i fokusiranost: Latentno analitičko razmišljanje omogućava modelu da koristi punu računarsku moć na analizu problema, bez dodatnog troška generisanja dugačkog niza tekstualnih objašnjenja. To rezultira bržim dolaskom do rešenja i smanjenjem potrošnje resursa.
- Veća sličnost sa ljudskim mišljenjem: Ljudi ne rešavaju zadatke tako što uvek izgovaraju svaki misaoni korak naglas. Naprotiv, većina analitičko razmišljanje se odvija „u tišini“ mozga, dok se spolja iskazuje samo krajnji rezultat. HRM oponaša upravo tu osobinu, zadržavajući unutrašnje misaone procese u latentnom prostoru.
- Stabilnija generalizacija: Pošto model ne zavisi od tačno formulisanog jezika prilikom razlaganja zadatka, manje je osetljiv na sintaktičke i semantičke varijacije. To mu daje sposobnost da se bolje generalizuje i prilagodi zadacima koji se razlikuju od onih viđenih tokom obuke.
Drugim rečima, HRM ne pokušava da „uči kako da piše objašnjenja“, već kako da istinski analitički razmišlja. Time se otvara mogućnost za razvoj AI sistema koji nisu ograničeni stilom jezika, već zaista razvijaju unutrašnju logiku rešavanja problema.
2. Hijerarhijska struktura
HRM se zasniva na dvonivou hijerarhiji rekurentnih modula koji rade na različitim vremenskim skalama:
- H-modul (High level): odgovoran je za sporije, apstraktnije procese. On gradi „veliku sliku“, održava dugoročnu memoriju i planira u širem kontekstu. Njegova ažuriranja se dešavaju ređe, ali nose značajnu informaciju o globalnom cilju.
- L-modul (Low level): funkcioniše na bržem vremenskom okviru. On reaguje na konkretne ulaze, obrađuje detalje i razrađuje taktičke odluke.
Ova podela rada podseća na način na koji ljudski mozak kombinuje brze, intuitivne reakcije (npr. refleksno izbegavanje prepreke) sa sporijim, analitičkim planiranjem (npr. promišljanje o najboljoj strategiji za rešavanje složenog problema). HRM tako dobija sposobnost da bude i fleksibilan i precizan — brzo prilagodljiv detaljima, ali vođen stabilnim planom višeg reda.
3. Hierarchical Convergence
Jedan od najvećih izazova rekurentnih mreža jeste stabilnost. Tradicionalni RNN-ovi često pate od eksplodirajućih ili nestajućih gradijenata, što otežava učenje na dužim sekvencama. HRM rešava ovaj problem kroz mehanizam hierarchical convergence.
Ovaj mehanizam obezbeđuje da višestruke iteracije unutar hijerarhije ne divergiraju, već da se postupno približavaju stabilnoj ravnoteži. To znači da, bez obzira na složenost zadatka, model neće „zaglavljivati“ u oscilacijama ili besmislenim petljama. Rezultat je duboko analitičko razmišljanje u jednom prolazu — model može da „razmišlja više puta“ unutar iste iteracije, ali tako da svaka nova runda donosi približavanje konačnom odgovoru.
4. Efikasno učenje bez BPTT
Standardni pristup treniranju rekurentnih mreža koristi Backpropagation Through Time (BPTT), gde se gradijenti prate kroz sve vremenske korake. To je računarski zahtevno i neefikasno, jer potrošnja memorije i resursa raste sa dužinom sekvence.
HRM uvodi aproksimaciju gradijenta u jednom koraku, što omogućava konstantnu složenost u pogledu memorije (O(1)). Umesto da pamti ceo niz stanja, model koristi pametno projektovan algoritam koji zadržava ključne informacije potrebne za korekciju težina. Time se omogućava:
- skalabilno učenje čak i na veoma dugačkim sekvencama,
- efikasno korišćenje resursa, što model čini pogodnim za implementaciju i na uređajima sa ograničenim hardverom,
- bržu obuku, jer se izbegava potreba za kompleksnim i sporim računima tokom povratnog propagiranja.
Ova osobina HRM-a predstavlja značajan iskorak u praktičnosti rekurentnih arhitektura.
5. Adaptivno analitičko razmišljanje (Adaptive Computational Time – ACT)
U klasičnim modelima, broj koraka analitičkog razmišljanja je unapred određen — model uvek prolazi isti broj iteracija, bez obzira na to koliko je zadatak jednostavan ili složen. HRM uvodi adaptivno analitičko razmišljanje putem mehanizma Adaptive Computational Time (ACT).
ACT omogućava modelu da dinamički odlučuje koliko je iteracija dovoljno:
- Ako je zadatak jednostavan (npr. sabiranje manjih brojeva), model brzo pronalazi rešenje i zaustavlja analitičko razmišljanje ranije.
- Ako je zadatak složen (npr. rešavanje teškog Sudokua ili pronalaženje puta kroz lavirint), model produžava svoje unutrašnje analitičko razmišljanje sve dok ne dođe do stabilnog i pouzdanog odgovora.
Ova fleksibilnost je dodatno podržana Q-učenjem, koje pomaže modelu da nauči kada je najbolje zaustaviti analitičko razmišljanje. Prednost ovog pristupa je što HRM ne mora da se dodatno trenira za različite složenosti zadataka — on sam uči da raspoređuje svoje vreme i resurse optimalno.
Rezultat je sistem koji se ponaša „ekonomično“ — ne gubi vreme na trivijalnim problemima, ali ni ne žuri kroz teške izazove.
Performanse na izazovnim zadacima
- Sudoku-Extreme: gotovo savršena tačnost uz samo 1.000 primera za obuku — dok CoT modeli potpuno podbacuju.
- Maze-Hard (30×30 lavirinti): HRM uspešno pronalazi put, što je izvan domašaja standardnih LLM-ova.
- ARC-AGI (Abstraction and Reasoning Corpus): sa samo 27M parametara i kontekstom od 30×30 tokena, HRM postiže 40,3% tačnosti, nadmašujući i mnogo veće modele poput o3-mini-high (34,5%) i Claude 3.7 8K (21,2%).
- Symbolic Regression i logičke zagonetke: pokazuje sposobnost da otkriva obrasce i razmišlja konzistentno, čak i na zadacima gde su LLM-ovi skloni kontradikcijama.
Potencijalne primene
- Autonomni sistemi: roboti i vozila koja donose pouzdane odluke u realnom vremenu.
- Naučno istraživanje: otkrivanje skrivenih matematičkih i fizičkih zakonitosti iz podataka.
- Zdravstvo: analiza složenih medicinskih obrazaca bez potrebe za ogromnim datasetovima.
- Obrazovanje: AI tutori sposobni da razlažu probleme i uče studente prirodnijim putem.
Prednosti i izazovi
Prednosti:
- Stabilnost i duboko analitičko razmišljanje u jednom prolazu.
- Niska potreba za podacima.
- Manja memorijska složenost u poređenju sa BPTT.
- Kompaktna arhitektura sa visokim performansama.
- Fleksibilno vreme analitičkog razmišljanja u zavisnosti od zadatka.
Izazovi:
- Teorijska analiza aproksimacije gradijenata i dalje otvoreno pitanje.
- Potreba za evaluacijom na širem spektru realnih zadataka.
- Potencijal za kombinovanje sa Transformerima radi univerzalnosti.
Hierarchical Reasoning Model predstavlja značajan iskorak u razvoju veštačke inteligencije koja može da analitički razmišlja duboko, efikasno i adaptivno. Biološki inspirisana arhitektura HRM-a kombinuje najbolje od rekurentnih sistema i adaptivnog planiranja, otvarajući put ka AI koja ne samo da razume, već i „misli“ na način sličniji ljudskom.
Ono što HRM čini posebno vrednim jeste činjenica da pokazuje da budućnost veštačke inteligencije ne mora da se oslanja isključivo na rast parametara i veličinu modela, već na pametnije i održivije arhitekture. Umesto trke ka sve većim modelima sa milijardama ili trilionima parametara, HRM otvara perspektivu razvoja manjih, ali mnogo inteligentnijih sistema koji znaju da rasporede svoje resurse i vreme analitičkog razmišljanja na najefikasniji način.
Potencijal HRM-a je ogroman: od autonomnih sistema i robotike, preko naučnog otkrivanja i analize složenih obrazaca, pa sve do personalizovanog obrazovanja i medicinske dijagnostike. Ako se dalje istraživanje pokaže uspešnim, ova arhitektura bi mogla da bude temelj novog talasa AI sistema koji su istovremeno snažni i pristupačni, razumni i energetski štedljivi.
U širem smislu, HRM je važan korak u približavanju AI viziji sistema koji nisu samo statističke mašine za predviđanje sledeće reči, već entiteti sposobni za stvarno analitičko razmišljanje. Time se otvara prostor za razvoj tehnologije koja ne imitira površno ljudski jezik, već pokušava da reprodukuje suštinske mehanizme ljudskog mišljenja.
Linkovi:
https://arxiv.org/abs/2506.21734v3