9 grudnia 2025 roku zespół badaczy z Google Research, Google DeepMind i MIT ogłosił wyniki dużego eksperymentu nad systemami agentów AI, w którym sprawdził, jak faktycznie działa zwiększanie liczby współpracujących modeli językowych w różnych zadaniach i konfiguracjach; okazało się, że w wielu przypadkach dołożenie kolejnych agentów nie tylko nie poprawia wyników, ale wręcz je psuje, a rozrzut efektów sięga od wzrostu o 81% do spadku o 70%, zależnie od tego, jak wygląda samo zadanie systemy wieloagentowe produkowały skrajnie niespójne wyniki, od wzrostu o 81% do spadku o 70%[1].
Skąd to wiemy: 180 eksperymentów, trzy rodziny modeli
Autorzy nadali pracy tytuł „W kierunku nauki o skalowaniu systemów agentowych” i potraktowali ją jak serię eksperymentów laboratoryjnych, a nie marketingową prezentację; przeprowadzili 180 kontrolowanych testów, w których porównali pięć typów architektur organizacji agentów oraz trzy główne rodziny modeli językowych: GPT od OpenAI, Gemini od Google i Claude od Anthropic „W kierunku nauki o skalowaniu systemów agentowych” przeprowadziło 180 kontrolowanych eksperymentów[4]. Chodziło o to, aby nie opowiadać ogólnie, że „multi‑agent jest lepszy”, tylko wskazać konkretne warunki, w których koordynacja wielu agentów rzeczywiście pomaga, i te, w których staje się ciężarem w celu wyizolowania sytuacji, kiedy koordynacja wieloagentowa pomaga, a kiedy przynosi odwrotny skutek.
Próg 45%: moment, w którym dodatkowe agenty zaczynają przeszkadzać
Najmocniejszy wniosek dotyczy wyraźnego progu sprawności pojedynczego agenta. Badacze zauważyli, że gdy jeden agent osiąga w danym zadaniu około 45% dokładności, dokładanie kolejnych agentów przestaje się opłacać; zyski z podziału pracy i „burzy mózgów” zostają zjedzone przez koszty koordynacji, wymiany kontekstu i łączenia odpowiedzi gdy pojedynczy agent osiąga około 45% dokładności w zadaniu, dodawanie kolejnych agentów zazwyczaj przynosi malejące lub negatywne rezultaty z powodu narzutu koordynacji. Ten efekt nie jest przeczuciem, lecz wynikiem analizy statystycznej – współczynnik beta dla tego progu wyniósł -0,408 przy istotności p
Widać to szczególnie wyraźnie, kiedy porówna się różne typy zadań. W analizie finansowej, gdzie całość da się rozłożyć na części niemal niezależne, zespół odnotował bardzo duże zyski z podejścia wieloagentowego; scentralizowany system, w którym kilku agentów równolegle zajmowało się innymi aspektami danych, podniósł efektywność aż o 80,9% Zadania analizy finansowej, które rozkładają się na niezależne części, wykazały 80,9% poprawę przy scentralizowanej koordynacji wieloagentowej. Poszczególni agenci analizowali osobno trendy sprzedaży, struktury kosztów i dane rynkowe, a dopiero później scalali wyniki, co przypomina pracę dobrze zorganizowanego zespołu analityków, w którym każdy ma swoją działkę, ale ktoś nad całością panuje różni agenci analizowali trendy sprzedaży, struktury kosztów i dane rynkowe równolegle przed scaleniem wyników.
Finanse kontra Minecraft: kiedy wielu agentów pomaga, a kiedy psuje wynik
Zupełnie inny obraz wyłonił się z doświadczeń z zadaniami planowania w grze Minecraft. Tutaj każdy krok zmienia stan świata – po zbudowaniu czegoś, zużyciu zasobu czy zmianie ekwipunku kolejne decyzje muszą brać pod uwagę ten nowy stan. W takim środowisku każda testowana konfiguracja z wieloma agentami obniżała skuteczność w przedziale od 39% do 70%, niezależnie od tego, jak badacze próbowali ułożyć współpracę zadania planowania w Minecrafcie pokazały odwrotną historię: każda konfiguracja wieloagentowa pogorszyła wydajność o 39% do 70%. To nie jest drobna różnica, tylko załamanie wydajności – tam, gdzie logicznie myślący człowiek spodziewa się, że „więcej głów” poradzi sobie lepiej, system się rozłazi.
Kluczem okazały się zależności sekwencyjne, o których często zapomina się w optymistycznych narracjach o multi‑agentach. Jeśli każdy krok zadania wpływa na stan potrzebny w kolejnych krokach, jak w produkcji przedmiotów, gdzie każda zmiana ekwipunku zmienia dostępne możliwości, to dzielenie pracy między wielu agentów rozsypuje kontekst Gdy każdy krok w zadaniu zmienia stan wymagany dla kolejnych kroków—jak w przypadku wytwarzania, gdzie zmiany w ekwipunku wpływają na późniejsze działania—systemy wieloagentowe mają trudności. Każdy agent widzi inny fragment historii, a całość zaczyna przypominać sytuację, w której kilku ludzi przejmuje od siebie nawzajem notatnik bez pełnego zrozumienia, co poprzednik już zrobił i dlaczego systemy wieloagentowe mają trudności, ponieważ kontekst fragmentuje się między agentami.
Błędy rosną lawinowo, a tokeny się marnują
W niezależnych, słabiej kontrolowanych konfiguracjach wieloagentowych pojawił się jeszcze jeden nieprzyjemny efekt: błędy rosły znacznie szybciej niż w prostych systemach z jednym agentem. Zespół z Google i MIT zmierzył, że tego typu systemy zwiększały liczbę błędów 17,2 raza szybciej niż pojedynczy agent, co oznacza bardzo gwałtowne rozchodzenie się nieścisłości i złych założeń po całym układzie Niezależne systemy wieloagentowe zwiększały błędy 17,2 razy szybciej niż pojedyncze agenty poprzez niekontrolowane rozprzestrzenianie się[6]. Kiedy jednak do gry wchodziła scentralizowana koordynacja z punktami kontrolnymi walidacji, tempo narastania błędów spadało – nadal było wyższe niż przy jednym agencie, ale już „tylko” 4,4 raza scentralizowana koordynacja zmniejszyła to do 4,4 razy dzięki dodaniu punktów kontrolnych walidacji.
Na tym nie kończą się koszty. Badacze przeanalizowali też efektywność wykorzystania tokenów, czyli w uproszczeniu „paliwa obliczeniowego” modeli językowych, które realnie przekłada się na rachunek za chmurę. Pojedynczy agent radził sobie zdecydowanie lepiej: wykonywał średnio 67 udanych zadań na 1000 tokenów Pojedyncze agenty wykonywały średnio 67 udanych zadań na 1000 tokenów. W scentralizowanych systemach wieloagentowych ta liczba spadała do 21 zadań na 1000 tokenów, więc mniej niż jednej trzeciej sprawności pojedynczego agenta, mimo całej dodatkowej złożoności i koordynacji scentralizowane systemy wieloagentowe osiągały zaledwie 21—mniej niż jedną trzecią. Hybrydowe zespoły agentów, które łączyły różne sposoby współpracy, wypadały jeszcze gorzej: dawały tylko 14 zadań na 1000 tokenów Zespoły hybrydowe wykonywały tylko 14 zadań na 1000 tokenów.
Nowe zasady skalowania i zerwanie z mantrą „więcej agentów”
W reakcji na te wyniki naukowcy zbudowali ramy predykcyjne, które mają pełnić rolę mapy dla projektantów systemów agentowych. Zamiast zgadywać, kiedy stawiać na jednego silnego agenta, a kiedy na zespół, można policzyć kilka mierzalnych cech zadania i z dużym prawdopodobieństwem dobrać sensowną strategię. Według autorów te ramy potrafią poprawnie wskazać optymalny sposób koordynacji w 87% nowych konfiguracji, czyli w niemal dziewięciu przypadkach na dziesięć ramy predykcyjne, które poprawnie identyfikują optymalną strategię koordynacji dla 87% nowych konfiguracji. Ciekawy wniosek dotyczy tu zwłaszcza zadań wymagających około 16 różnych narzędzi – tam lepiej wypada pojedynczy agent albo konfiguracja zdecentralizowana niż złożona, silnie skoordynowana struktura wieloagentowa, co kłóci się z intuicją, że „więcej narzędzi = więcej agentów” Zadania wymagające około 16 różnych narzędzi faworyzowały pojedyncze agenty lub konfiguracje zdecentralizowane nad koordynacją wieloagentową.
Całość wyników staje w poprzek głośnej pracy z poprzedniego roku, której tytuł brzmiał w wolnym tłumaczeniu „Więcej agentów to wszystko, czego potrzebujesz” i która sugerowała, że skalowanie liczby współpracujących modeli samo w sobie rozwiązuje wiele problemów Wyniki zaprzeczają zeszłorocznej pracy „Więcej agentów to wszystko czego potrzebujesz”[2]. Tym razem zespół z Google i MIT proponuje coś zupełnie innego: zestaw pierwszych ilościowych zasad skalowania systemów agentowych, opartych na twardych danych, a nie hasłach ustanawiając to, co naukowcy nazywają „pierwszymi ilościowymi zasadami skalowania dla systemów agentowych”. Dla kogoś, kto projektuje narzędzia oparte na AI, oznacza to konieczność niewygodnego pytania: czy dokładanie kolejnych agentów w moim systemie faktycznie pomaga, czy tylko skomplikuje sytuację, zwiększy rachunek za obliczenia i przyspieszy narastanie błędów?
