LangGrinch, GPT-5.2 i Genesis Mission: kluczowe wydarzenia w świecie agentów AI (26.12.2025–2.01.2026)

Yarden Porat opisał poważną podatność w bibliotece Lang. Chain^[1] (moduł langchain-core), oznaczoną jako CVE-2025-68664 z oceną CVSS 9.3. Luka polega na niebezpiecznej deserializacji: atakujący mogą wstrzykiwać zaufane obiekty przez klucz `lc` w słownikach^[2], co umożliwia kradzież tajemnic, tokenów API i poświadczeń chmurowych, a w pewnych konfiguracjach prowadzi do zdalnego wykonania kodu. Badania i raporty firmy Cyata oraz komunikaty społeczności wskazują na konieczność natychmiastowego patchowania^[3] bibliotek i aktualizacji do wersji 0.3.81 lub 1.2.5.

Krytyczna luka LangGrinch

OpenAI wypuściła model GPT-5.2 11.12.2025^[5], dostępny w trzech wariantach: Instant, Thinking i Pro. Według wewnętrznego memo opisanego przez branżę, pod nazwą „Code Red”, premiera była reakcją na listopadowe postępy konkurencji^[4] — zwłaszcza na ogłoszenie Gemini 3 — i na słowa Sam Altman, który zadeklarował „wyjdziemy z Code Red do stycznia”. GPT-5.2 ma celować w zastosowania profesjonalne; firma udostępniła model użytkownikom ChatGPT Pro i przez API, nie ujawniając szczegółowych stawek.

Wyścig modeli i benchmarki

Anthropic ogłosiła w listopadzie 2025 wydanie Claude Opus 4.5^[7], które firma promuje jako model optymalny dla agentów i programowania. W praktyce rynek LLM stał się bardziej zróżnicowany: xAI oferuje Grok 4 i Grok 4 Heavy w planach płatnych ($30/mies. oraz $300/mies.), a Deep. Seek rozwija V3.1 z hybrydowym rozumowaniem^[16]. Ta fragmentacja zmienia kryteria wyboru dla przedsiębiorstw: nie wystarczy „najlepszy ogólnie”, liczy się dopasowanie do zadań.

Problemy z oceną agentów narastają. Badacze opublikowani przez Clément Schneider i zespół D. Kang wskazali^[14], że wiele benchmarków dla agentów zawiera błędy metodologiczne i skróty ewaluacyjne. Równocześnie Carnegie Mellon University opublikowała analizę, z której wynika^[15], że agenci zawodzą około 70% przypadków w scenariuszach end-to-end; ludzie zawodzą w 30%, a systemy hybrydowe człowiek+AI w około 15%. Te dane podważają zaufanie do benchmarków i zwiększają wartość narzędzi governance.

Genesis Mission i konsekwencje

Google Deep. Mind ogłosiła 17.12.2025 partnerstwo z U. S. Department of Energy^[11], w ramach programu Genesis Mission: wszystkie 17 narodowych laboratoriów DoE uzyskały dostęp do agentów naukowych^[10] opartych na Gemini oraz do platformy Gemini for Government. Administracja White House postrzega projekt jako sposób na skrócenie cyklu badań z lat do dni; planowane są moduły Alpha. Evolve (kodowanie), Alpha. Genome (DNA) i Weather. Next (prognozy pogodowe). Rządowe wdrożenie frontier AI ma charakter precedensowy i może przyspieszyć badania, ale budzi też pytania o nadzór i ryzyko.

Wpływ rynkowy i regulacyjny jest wyraźny. European Commission przesunęła 19.11.2025 obowiązki dla systemów wysokiego ryzyka^[20], łagodząc zasady anonimizacji i uproszczając reguły cookies, co ma zwiększyć konkurencyjność UE. Na rynku powstają standardy techniczne: Linux Foundation stworzyła Agentic AI Foundation^[6] i promuje Anthropic Model Context Protocol (MCP) jako sposób na interoperacyjność agentów. W międzyczasie Service. Now przejęła Veza (transakcja szacowana na $2.7B)^[22], a firmy bezpieczeństwa, takie jak Rubrik, odnotowują wzrost popytu na narzędzia audytu AI. Wnioski są jasne: 2026 będzie rokiem selekcji — przetrwają systemy z solidnym governance, audytem i bezpieczeństwem.

Powiązane wpisy:

Krytyczna luka LangGrinch

Wyścig modeli i benchmarki

Genesis Mission i konsekwencje

Źródła