Zapraszam Was do zapoznania się z efektami miesięcy pracy mojej i Zespołu Oxido, których najważniejszą częścią jest raport z badań modeli językowych.

Odpowiedzi uzyskane w 12 narzędziach były oceniane przez łącznie 11 osób, dzięki czemu możemy spojrzeć na pracę LLM-ów z perspektywy typowego użytkownika, a nie tylko syntetycznych benchmarków (nie neguję ich znaczenia; po prostu przyjęliśmy inną metodologię). Ale to dopiero początek. To co wyróżnia moje badania to fakt, że bazowaliśmy w 100% na języku polskim – w naszym języku były prompty i w tym języku oczekiwaliśmy odpowiedzi.

Zapraszam też do lektury tekstów towarzyszących raportowi z badań, które mają dodać dodatkowy wymiar i lepiej pomóc w określeniu momentu w rozwoju AI, w którym obecnie jesteśmy.

Z wiedzy uzyskanej w trakcie badań będziemy czerpać m.in. w trakcie szkoleń z zakresu wykorzystania AI w pracy i biznesie, czy realizując projekty AI w ramach Oxido.

Marek Jeleśniański

Autor badań / CEO · Oxido

Testowane modele AI

Mapa dużych modeli językowych (LLM) 2026

Streszczenie raportu

Raport opiera się na testach modeli językowych z poziomu oficjalnych chatbotów (wyjątkiem jest EuroLLM). Celem było sprawdzenie, jak poszczególne modele – dostępne za pośrednictwem wspomnianych interfejsów – radzą sobie z realizacją zadań otwartych. Zarówno podejście do sposobu testowania, jak i dobór zadań wynikają z prostego założenia: w ten sposób z AI korzysta typowy Kowalski. Z tego też powodu oceny dokonywali ludzie – 11 osób łącznie ze mną, przedstawiciele różnych zawodów. W obliczaniu średniej zastosowano mechanizm odrzucania po jednej skrajnej ocenie, znany ze skoków narciarskich, a uczestnicy dla ułatwienia mieli kryteria oceny i wzorcowe odpowiedzi na pytania stricte merytoryczne. Modele są różnej klasy.

Kilka najważniejszych dla mnie wniosków:

  1. Największym zaskoczeniem były dla mnie wyniki modeli Llama 4 oraz Qwen 3.5 Plus. To pozwala przypuszczać, że różnica pomiędzy modelami otwartymi a ich komercyjnymi odpowiednikami (jak ChatGPT) w odniesieniu do codziennych zastosowań wcale nie jest duża. Na plus dla Google można odnotować rozwój Gemini, który to model finalnie znalazł się na pierwszym miejscu (w pierwszym pilotażu w 2024 r. był poza podium).
  2. Uwagę mediów przykuła niska pozycja polskich modeli – jeśli patrzymy pomijając wszelkie założenia i uwagi, to należałoby odnotować, że ogólnie europejskie modele wypadły gorzej niż amerykańscy i chińscy konkurenci. Jednocześnie w raporcie omawiam swój sposób patrzenia na wyniki, który nijak się ma do nagłówków „Polskie boty to tumany” i wyrażam sprzeciw wobec takiego wykorzystania mojego raportu. Model dobieramy do zadania, które ma realizować i mocno to podkreśliłem w raporcie.
  3. Kryterium, gdzie wszystkie modele poległy, był polski humor. Stawiam tezę, że może to być ostateczny sprawdzian dla AI, czy faktycznie dorównuje człowiekowi.
  4. Ogólnie patrząc zadania związane z pracą zawodową – te z racji pracy jako szkoleniowca i konsultanta są dla mnie najważniejsze – wypadły modelom lepiej niż część, nazwijmy ją, społeczno-kulturowa. Testowane były np. umiejętności pisania e-maili czy generowania treści prezentacji.
  5. Na co liczę, to dyskusja na temat kierunku rozwoju AI w Polsce i Europie, koniecznie z perspektywy praktycznej i biznesowej. W raporcie oraz w wypowiedziach dla mediów podkreślam potrzebę stworzenia takich ram regulacyjnych, które zapewnią sprawne finansowanie, otwartość na ryzyko i elastyczność działania startupów. W odniesieniu do LLM, o ile zależy nam na pozycji porównywalnej z modelami najwyższej klasy (tzw. SOTA), musimy podjąć szybkie i mądre decyzje. Idąc w tym kierunku powinniśmy być bardziej otwarci na potrzeby Kowalskiego i jakość tych treści, o które prosimy na co dzień. To te kryteria decydują koniec końców o wyborze, komu zapłacimy nasze hipotetyczne 20$ miesięcznie. Na mój nos ten kierunek zdają się sugerować nagłówki o suwerennej AI; bez europejskiego modelu SOTA nie będzie suwerennej AI.

Z przymusu dodam, że 8 lutego poprosiłem przedstawicieli Bielika o wywiad i nie dostałem odpowiedzi; 24 lutego generowane były odpowiedzi do oceny, a raport został opublikowany 9 marca.

Zapraszam do uważnej lektury całości raportu oraz artykułów towarzyszących, do których linki są poniżej. Jeśli ktoś jest chętny, by wziąć udział w kolejnej edycji, o ile się odbędzie, wyślijcie maila przez formularz.

Data publikacji streszczenia: 19 marca 2026.

PS Co już pisałem w raporcie, mocno trzymam kciuki za modele europejskie, w tym naturalnie przede wszystkim za polskie 🙂

Modele językowe dobieramy do zadań, jakie mamy realizować, i warunków regulacyjnych, pod które podlegamy.

Raport jest odpowiedzią na pytania, które często otrzymuję na szkoleniach, w tym stricte w kontekście modeli językowych powstających w Polsce i Europie, na ile są one uniwersalne.

To, że coś nie jest uniwersalne, nie znaczy, że jest złe.

Najlepsze duże modele językowe wg badań

Najlepsze modele ogólnie

(w ocenie wszystkich uczestników)

Najlepsze modele do pracy

(w ocenie wszystkich uczestników)

Najlepsze modele moim zdaniem

(na bazie moich ocen „w ciemno”)

Przeczytaj pełny raport

Zachęcam, aby w oparciu o wyniki stworzyć własny ranking.

Badania LLM w liczbach

12
przebadanych modeli
5
modeli w dogrywce
320
ocenionych odpowiedzi
11
osób dokonujących oceny

Pełen ranking modeli AI

(na bazie zasadniczej fazy badań)

Badania LLM - ogólny ranking modeli AI
Przeczytaj pełny raport

USA, Chiny i Europa i ich rywalizacja w obszarze AI

Architektura, krzem i kod – technologiczny wyścig o supremację w AI

USA, Chiny i Europa i ich rywalizacja technologiczna i naukowa w obszarze sztucznej inteligencji.

Kapitał, energia i bańka – kto (za)płaci za rewolucję AI?

Jaką rolę – zasób i ograniczenie – odgrywają pieniądze, energia i infrastruktura.

Regulacje AI w Chinach, Europie i USA

Regulacje dotyczące AI – zagrożenie dla rozwoju czy konieczność?

Tekst wkrótce – zachęcam do subskrypcji newslettera.

Kolejne ciekawe artykuły na temat dużych modeli językowych i nie tylko już wkrótce. Zapisz się na newsletterZapisz się na newsletter, aby niczego nie przegapić!

Wyłączny sponsor:

Komentarze ekspertów

Jacek Bąk

W praktyce o wartości modelu AI nie decydują tylko benchmarki, ale to, czy rozumie język, kulturę i realia pracy użytkownika, które mogą wyglądać inaczej w Polsce niż np. w USA. Dlatego tak ważne są badania oparte na rzeczywistych scenariuszach użycia. Pokazują, jak modele radzą sobie w codziennej pracy w określonym kontekście kulturowym i językowym, dostarczając bardziej praktycznej wiedzy niż same wyniki testów technicznych.

Jacek Bąk

Twórca treści o AI na YouTube

LLM-y mogą być bardzo pomocne w prawnym researchu – potrafią szybko zebrać argumenty, zweryfikować dokument czy pomóc uporządkować materiał. Nie są jednak wiarygodnym źródłem wiedzy prawniczej. Modele, zwłaszcza te otwarte, często halucynują, czyli potrafią wymyślać przepisy lub orzeczenia. Dlatego warto traktować je raczej jako niewykształconego asystenta prawnika, niż jego zastępstwo. Ponadto dostawcy nie zawsze gwarantują nabycie praw autorskich do wygenerowanych treści czy bezpieczeństwo poufnych informacji. Dlatego do wprowadzania i tworzenia wrażliwych danych w takich systemach należy podchodzić bardzo ostrożnie.

Jakub Ferek

Prawnik IT / Prowadzący szkolenia z prawa AI · Oxido

Przeczytaj pełny raport

Artykuły towarzyszące badaniom LLM

Kolejne ciekawe artykuły na temat dużych modeli językowych i nie tylko już wkrótce. Zapisz się na newsletterZapisz się na newsletter, aby niczego nie przegapić!

Zapraszam do rejestracji na mój newsletter dot. AI i zarządzania. Dzięki temu nie ominie Cię żaden artykuł.  Zapisz się