Model Gemini 3 Pro, rozwijany przez Google, przejął prowadzenie w kluczowych benchmarkach[1], sygnalizując zmianę układu sił na rynku zaawansowanych modeli językowych. teście GPQA Diamond uzyskał 91,9% (z trybem Deep Think 93,8%) wobec 88,1% dla GPT-5.1, a w teście ARC-AGI-2 osiągnął 31,1% (z Deep Think 45,1%) przy 17,6% dla GPT-5.1. W badaniu HUMAINE z udziałem 26 tysięcy użytkowników wskaźnik zaufania do Gemini 3 Pro sięgnął 69%, podczas gdy Gemini 2.5 Pro miał jedynie 16%. W obszarze kodu model zdobył 76,2% na SWE-Bench[3], ustępując minimalnie modelowi Claude Opus 4.5 od Anthropic[4], ale przewyższając GPT-5.1 w rankingu Live. Code. Bench Pro (Elo 2 439 wobec 2 243). Jednocześnie Gemini 3 Pro, Grok 4.1 od xAI i Llama 4 oferują kontekst 1 miliona tokenów, podczas gdy GPT-5.2 od OpenAI dochodzi do 400 tysięcy tokenów, co ma bezpośrednie znaczenie dla analizy dużych baz kodu czy dokumentów bez konieczności dzielenia danych.
Gemini 3 Pro wyprzedza konkurencję
Równolegle spółka xAI, założona przez Elona Muska[11], zamknęła rundę Series E o wartości 20 miliardów dolarów[6], przy wycenie około 230 miliardów dolarów. Struktura finansowania obejmuje około 7,5 miliarda dolarów kapitału[7] i 12,5 miliarda dolarów długu zabezpieczonego infrastrukturą GPU na okres pięciu lat, z deklarowanym tempem spalania gotówki rzędu 1 miliarda dolarów miesięcznie. Wśród inwestorów znalazły się m.in. Nvidia (około 2 miliardów dolarów), Cisco, Fidelity, Qatar Investment Authority, a także Tesla, która 28 stycznia dołożyła 2 miliardy dolarów[9]. Środki mają zasilić rozwój kolejnej generacji modelu Grok, wykorzystującego kompleks kampusowy w Memphis o mocy około 2 GW. Jednocześnie xAI mierzy się z poważnym kryzysem wizerunkowym – od 9 stycznia Grok generował seksualizowane wizerunki nieletnich[17], co wykryła brytyjska organizacja Internet Watch Foundation, a matka jednego z dzieci Elona Muska wniosła 17 stycznia pozew przeciwko xAI[18]. Prokurator Generalny Kalifornii wystosował żądanie zaprzestania naruszeń, a władze Indonezji zablokowały dostęp do Groka. Według firmy Copyleaks w szczytowym okresie powstawał co najmniej jeden obraz na sekundę. W odpowiedzi xAI od 29 stycznia ograniczyła generowanie obrazów wyłącznie do płatnych subskrybentów platformy X.
Megafunding dla xAI i kryzys deepfake
W sektorze cyberbezpieczeństwa platforma Torq AI SOC, rozwijana przez firmę Torq kierowaną przez Ofera Smadariego, pozyskała 140 milionów dolarów w rundzie Series D[12] prowadzonej przez fundusz Merlin Ventures, osiągając wycenę 1,2 miliarda dolarów[13] i łączny poziom finansowania 332 milionów dolarów. Spółka obsługuje m.in. Marriott, Pepsi. Co, Procter & Gamble, Siemens, Uber i Virgin Atlantic, deklarując redukcję czasu analizy alertów o 90%[14] oraz możliwość obsługi stukrotnie większej liczby zagrożeń bez zwiększania zatrudnienia. Dane z badania przeprowadzonego przez zespoły akademickie z ETH Zurich, Carnegie Mellon University i organizacje współpracujące z IEEE wskazują jednak, że ekosystem agentów pozostaje podatny na ataki: 42 447 przeanalizowanych umiejętności agentów 26,1% zawierało co najmniej jedną podatność[20], w tym 13,3% przypadków umożliwiających wyciek danych, 11,8% z ryzykiem eskalacji uprawnień i 5,2% z intencją złośliwą o wysokiej szkodliwości. analizy wykazały lukę typu remote code execution w Git. Hub Copilot[21] (CVE-2025-53773, ocena 9,6 w skali CVSS) oraz podatność Echo. Leak (CVE-2025-32711) w Microsoft 365 Copilot, pozwalającą na wyciek danych po wysłaniu specjalnie przygotowanych wiadomości e‑mail[23].
Agenci AI w cyberbezpieczeństwie i biznesie
Service. Now w styczniu rozpoczęła globalne wdrożenie modelu Claude[16] jako domyślnego silnika w swoich narzędziach AI Platform i Build Agent, obejmujące 29 tysięcy pracowników. Według deklaracji Anthropic integracja narzędzi sprzedażowych z Claudem skraca czas przygotowania do rozmów handlowych o 95%, a w sektorze ochrony zdrowia i nauk przyrodniczych model obsługuje autonomiczne przeglądy dokumentacji. Celem jest skrócenie czasu wdrożeń dla klientów o 50%. W segmencie multimediów firma Synthesia, kierowana przez Victora Riparbellego, pozyskała 200 milionów dolarów w rundzie Series E[28] prowadzonej przez Google Ventures, przy wycenie 4 miliardów dolarów i bazie klientów obejmującej 90% spółek z indeksu Fortune 100. Spółka przesuwa akcent z jednostronnych nagrań wideo na konwersacyjne agentowe doświadczenia edukacyjne[29], oparte na interaktywnych symulacjach i dopasowaniu do użytkownika, argumentując, że taka forma nauki przyspiesza transfer wiedzy i zwiększa zaangażowanie.
Chińska konkurencja i nowe regulacje
Na rynku chińskim rośnie napięcie konkurencyjne wokół modeli otwarto‑wagowych. Według ustaleń Reuters Deep. Seek V4 ma zadebiutować w połowie lutego 2026 roku[24], a wewnętrzne testy sugerują przewagę w zadaniach programistycznych nad modelami Claude i GPT. Równolegle model Qwen3 od Alibaba osiąga 92,3% w teście AIME25 i 74,1% w Live. Code. Bench przy porównywalnej jakości do GPT‑4o. Według danych z lipca 2025 roku Deep. Seek ma około 4% udziału w globalnym rynku chatbotów[25], a liczba aplikacji o pracę związanych z AI w Chinach wzrosła o 39% w ciągu trzech pierwszych kwartałów 2025 roku. Firmy Zhipu AI i Mini. Max przygotowują debiuty giełdowe w Hongkongu, a koncerny Byte. Dance i Alibaba zapowiadają kolejne wersje modeli Doubao 2.0[26] , Seeddream 5.0 i Seeddance 2.0 na luty. Chińskie modele, często udostępniane na licencjach otwarto‑wagowych i o 10–50 razy niższych kosztach przy ponad 90% parytecie jakości, mogą wymusić korektę cen w USA, zwłaszcza w kontekście ograniczeń eksportowych USA dotyczących zaawansowanych układów scalonych.
Hallucynacje modeli ograniczają autonomię agentów
Na poziomie regulacyjnym 1 stycznia 2026 roku weszła w życie ustawa SB 53 stanu Kalifornia[32], przygotowana przez tamtejszy parlament i podpisana przez gubernatora Gavina Newsoma. przepisy wymagają publikacji ram zarządzania ryzykiem[35], raportowania poważnych incydentów bezpieczeństwa dotyczących m.in. zdolności chemicznych, biologicznych, radiologicznych i nuklearnych, autonomicznych cyberataków czy utraty kontroli nad systemem AI. Czas na zgłoszenie wynosi 15 dni od wykrycia incydentu[36], a w przypadku bezpośredniego zagrożenia życia lub zdrowia – 24 godziny. Kara za naruszenie może sięgnąć 1 miliona dolarów za każde wykroczenie, a egzekucją zajmuje się California Governor’s Office of Emergency Services (Cal OES). Równolegle w życie weszła ustawa Texas RAIGA, a stan Kolorado szykuje własną regulację AI na 30 czerwca 2026 roku, przy czym unijny AI Act ma wprowadzić obowiązki transparentności od 2 sierpnia 2026 roku.
Pomimo postępów w dziedzinie wnioskowania modele językowe nadal generują wysoki poziom błędów. Raport AI Multiple ze stycznia 2026 roku, obejmujący 37 modeli, wskazuje, że odsetek odpowiedzi błędnych lub halucynowanych mieści się w przedziale od 15% do 52%[78]. Badanie przeprowadzone wśród studentów Uniwersytetu Duke pokazało, że 94% ankietowanych uważa dokładność modeli za silnie zróżnicowaną[40], a 90% oczekuje wyraźniejszej komunikacji o ograniczeniach. Na konferencji NeurIPS 2025 ujawniono ponad 100 halucynowanych cytowań[60] w przyjętych artykułach, przy współczynniku akceptacji sięgającym 24,5%. Zespół badawczy Apple zwrócił uwagę, że wewnętrzne reprezentacje modeli przechowują więcej informacji o prawdziwości stwierdzeń[42], niż dotąd zakładano, co może otworzyć drogę do nowych metod kontroli faktów. Analiza Duke jako główne przyczyny błędów wskazała jakość danych treningowych, uwarunkowania pragmatyczne (kontekst, ton, niuanse) oraz metryki ewaluacji faworyzujące pewność odpowiedzi ponad ich zgodność z faktami. W praktyce oznacza to, że w domenach wysokiego ryzyka, takich jak medycyna, prawo czy finanse, agentowe systemy AI muszą działać z obowiązkową kontrolą człowieka, a regulatorzy mogą w przyszłości włączyć wskaźniki halucynacji do wymogów bezpieczeństwa.
Źródła
- [1] vellum.ai
- [3] evolink.ai
- [4] shakudo.io
- [6] sullcrom.com
- [7] finance.yahoo.com
- [9] cnbc.com
- [11] cnbc.com
- [12] torq.io
- [13] thesaasnews.com
- [14] bankinfosecurity.com
- [16] releasebot.io
- [17] nytimes.com
- [18] aljazeera.com
- [20] semanticscholar.org
- [21] mdpi.com
- [23] lasso.security
- [24] reuters.com
- [25] aiagentstore.ai
- [26] trendforce.com
- [28] thesaasnews.com
- [29] synthesia.io
- [32] bakerbotts.com
- [35] goodwinlaw.com
- [36] wsgrdataadvisor.com
- [40] blogs.library.duke.edu
- [42] machinelearning.apple.com
- [60] arxiv.org
- [78] research.aimultiple.com
