Część 2: Zderzenie ze ścianą, czyli gdzie inżynieria AI nienawidzi biologii
Christopher Keruac@CKeruac·
Wczoraj zachwycaliśmy się architekturą „The Dragon Hatchling” (BDH). Zobaczyliśmy, jak matematyka może naśladować niektóre aspekty neuroplastyczności, pamięci roboczej i rzadkich aktywacji ludzkiego mózgu.
Z artykułu wyłonił się obraz modelu sugerującego, że słynny mechanizm Attention (uwagi) z Transformerów może mieć formalne podobieństwa do biologicznego działania synaps. Skoro więc mamy w rękach to „brakujące ogniwo”, to dlaczego BDH nie zastępuje dzisiaj architektury ChatGPT na serwerach OpenAI? Ponieważ świat akademickiej biologii brutalnie zderza się z ograniczeniami współczesnego krzemu.
Oto 4 powody, dla których inżynierowie AI kręcą nosem na biologiczne naśladownictwo.
1. Słoń w pokoju: Biologiczna niemożliwość wstecznej propagacjiAby jakikolwiek model AI się czegoś nauczył, używa algorytmu wstecznej propagacji błędu (Backpropagation). Kiedy model się myli, przesyła sygnał błędu „wstecz” przez całą sieć, korygując wagi.Problem: Z punktu widzenia klasycznych modeli neurobiologicznych taki mechanizm jest trudny do pogodzenia z rzeczywistą fizjologią synaps (tzw. weight transport problem). Mózg nie posiada znanego mechanizmu, który idealnie przesyłałby globalny błąd przez sieć w sposób analogiczny do backpropagation.Co na to autorzy BDH? Choć model dobrze naśladuje pewne cechy mózgu w fazie wnioskowania (inferencji), do nauczenia się wiedzy bazowej wciąż używa wstecznej propagacji. Autorzy przyznają w sekcji 7.2, że próbowali trenować model bez propagacji wstecznej (tylko w oparciu o naturalną dynamikę). Efekt? Model zachował pewne zdolności językowe, ale „stracił zdolność dopasowywania pojęć między różnymi językami podczas tłumaczenia”.Wniosek: BDH może przypominać mózg w sposobie przetwarzania informacji, ale jego proces uczenia nadal opiera się na technikach typowych dla współczesnego uczenia maszynowego.
2. Przekleństwo "rzadkości" (Sparsity) a karty graficzneZ wczorajszej części wiemy, że w BDH w danym momencie aktywna jest tylko niewielka część neuronów. Reszta pozostaje nieaktywna, co potencjalnie oszczędza energię – podobnie jak w wielu obserwacjach dotyczących aktywności biologicznego mózgu.Problem: Współczesne karty graficzne (GPU), na których trenujemy AI, są zoptymalizowane głównie pod kątem bardzo wydajnego mnożenia dużych, gęstych macierzy (Dense Matrix Multiplication). Operacje na bardzo rzadkich strukturach (Sparse Matrix Operations) często nie wykorzystują w pełni ich potencjału obliczeniowego.Kompromis BDH: Autorzy zdawali sobie z tego sprawę. Zaproponowali specjalną wersję „BDH-GPU”, która wykorzystuje matematyczne sztuczki (np. faktoryzacje niskiego rzędu), aby lepiej dopasować architekturę do istniejącego sprzętu. Jednak przy bardzo rzadkich reprezentacjach mogą pojawiać się wąskie gardła związane z przepustowością pamięci. Dlatego niektórzy badacze sugerują, że architektury inspirowane biologicznie mogłyby najlepiej działać na przyszłych procesorach neuromorficznych.
3. Skala: Zabawa w piaskownicy a giganci technologiczniW artykule autorzy pokazują, że BDH może podążać za pewnymi prawami skalowania podobnymi do tych obserwowanych w modelach Transformer.Problem: Ich punktem odniesienia jest architektura zbliżona skalą do modeli klasy GPT-2, a eksperymenty kończą się na modelach rzędu około 1 miliarda parametrów.Rzeczywistość AI: Dzisiejsze modele SOTA (State-of-the-Art), takie jak Llama, Claude, czy GPT-5, mają dziesiątki miliardów lub znacznie więcej parametrów. W historii AI widzieliśmy wiele alternatywnych architektur (np. różne warianty modeli liniowej uwagi czy nowych struktur sekwencyjnych), które dobrze działały przy mniejszych skalach, ale okazywały się trudne do efektywnego skalowania do poziomu największych modeli. Czy BDH zachowa swoje właściwości przy takiej skali – to wciąż pytanie otwarte.
4. Klątwa Liniowej Uwagi (Linear Attention)BDH rezygnuje ze standardowego mechanizmu softmax attention na rzecz wariantu uwagi liniowej w wysokowymiarowej dodatniej przestrzeni.Problem: W literaturze AI zwraca się uwagę, że niektóre implementacje uwagi liniowej mogą mieć trudności z tzw. ostrym przypominaniem (sharp associative recall), czyli sytuacjami typu „znajdź igłę w stogu siana” – np. wyciągnięcie jednego konkretnego faktu z bardzo długiego kontekstu.Obrona BDH: Autorzy sugerują, że bardzo wysoki wymiar reprezentacji w ich architekturze może częściowo kompensować ten problem. Jednak aby przekonać inżynierów z największych laboratoriów AI, model musiałby zostać przetestowany w zadaniach z bardzo długim kontekstem (np. dziesiątek lub setek tysięcy tokenów) i wykazać stabilną jakość.
Podsumowanie: Most w budowie„The Dragon Hatchling” to interesująca propozycja architektury, która pokazuje, że można projektować modele AI inspirowane mechanizmami znanymi z neuronauki. Wskazuje potencjalną drogę rozwoju poza klasycznymi, gęstymi Transformerami.Ale jak widać, dopóki większość infrastruktury AI opiera się na sprzęcie zaprojektowanym do wydajnych operacji macierzowych, a najskuteczniejszą metodą uczenia pozostaje wsteczna propagacja błędu, wiele biologicznie inspirowanych pomysłów pozostaje trudnych do wdrożenia w praktyce.A skoro o kosztach, energii i brutalnej sile mowa... Ludzki mózg potrafi wymyślić teorię względności, zużywając około 20 watów energii. Największe systemy AI wymagają ogromnej infrastruktury obliczeniowej. Skąd bierze się ta przepaść?
Zapraszam jutro na Część 3: Starcie wagi ciężkiej!Want to publish your own Article?Upgrade to PremiumChristopher Keruac@CKeruacProgrammer & Founder. Synthesizing AI with Cognitive Science and Neuroscience. Exploring the intersection of Biology, Chemistry, and life sciences.