Nie tylko moja indywidualna praca z modelami językowymi, ale także mnóstwo przeprowadzonych szkoleń sprawiły, że utwierdziłem się w przekonaniu, że w pracy z AI kluczowy jest nie tyle język promptu, ile język, w jakim otrzymujemy odpowiedź. I że wiedza LLM-ów na temat Polski niekoniecznie będzie równa wiedzy dotyczącej innego kraju, np. Stanów Zjednoczonych czy Nauru.

Z tego powodu w październiku 2024 roku, a potem w kolejnym roku, przeprowadziłem pilotażowe testy modeli językowych, których wyniki prezentowałem na jednej z konferencji. To wszystko okazało się formą przygotowania do bardziej kompleksowych badań, które mam już za sobą i których wynikami chciałbym się z Wami podzielić. Sprawdziliśmy wraz z moim Zespołem, jak modele językowe radzą sobie ze zrozumieniem instrukcji w języku polskim, ale też jak wygląda jakość odpowiedzi na temat naszego kraju i w naszym języku.

W osobnym artykule towarzyszącym niniejszemu raportowi piszę o tym, że język jest ważny. Przekłada się na liczbę tokenów, a zatem i na to, jak dużo informacji model może przetworzyć. Odgrywa też istotną rolę w zadaniach, gdzie kontekst kulturowy ma duże znaczenie. Zauważalne są też różnice w jakości samego języka (gramatyce, słownictwie etc.).

Spis treści

  1. Główne założenia badań/testów
  2. Ogólny ranking – najlepsze modele językowych
  3. Testy bazujące na wiedzy o Polsce i Polakach
  4. Testy związane z pracą zawodową
  5. Najlepszy model AI – wybór z innej perspektywy
  6. Dogrywka – starcie modeli zaawansowanych
  7. Ranking modeli AI i moje wnioski
  8. Wnioski na temat samych badań
  9. Metodologia
  10. Podziękowania

Raport jest długi, więc jeśli masz ograniczony czas, możesz przeczytać streszczenie.

Główne założenia badań/testów

To, co było dla mnie bardzo ważne, to sprawdzenie, jak modele językowe radzą sobie, gdy są wykorzystywane w domyślnych interfejsach webowych, bo to z nich, a nie z API, korzystamy na co dzień. Można więc powiedzieć, że test modeli językowych ma charakter pośredni, a testujemy de facto efektywność narzędzi. Dlaczego to ma tak kolosalne znaczenie? Korzystając z chatbota, mamy narzuconą konkretną konfigurację modelu, którą tylko częściowo możemy zmienić. Dodatkowo niektórzy twórcy ograniczają możliwości modeli – przykładowo OpenAI wiąże rozmiar okna kontekstu z wybranym planem abonamentowym.

Badania LLM 2026

Badania były procesem niesamowicie pracochłonnym. Na ile własne środki finansowe i czas pozwalały, dołożyłem starań, aby były jak najbardziej rzetelne. / Obraz: Depositphotos

Gdy było to możliwe, wybierałem plany płatne za 20-30$. Szczególną uwagę zwracam na chatboty, które dają dostęp do AI za darmo – pytanie, czy wówczas nie płacimy swoimi danymi (np. treścią rozmów wykorzystywaną do dalszego trenowania modeli); wszak choćby serwery nie działają za darmo. Jednocześnie płacenie abonamentu wcale nie musi oznaczać automatycznie gwarancji, że dane nie będą wykorzystane do dalszego trenowania modeli. Czytajcie (lub wrzucajcie do LLM i analizujcie w ten sposób) regulaminy i stosujcie zasadę ograniczonego zaufania!

Jest jeden wyjątek. Ze względu na trend data sovereignty (chodzi głównie o możliwość przetwarzania danych w na terenie określonego kraju, który ma sprawować nad nim kontrolę), bardzo zależało mi więc na tym, aby przetestować model EuroLLM. Może być kolejnym wyborem dla firm i instytucji z Europy, dla których europejskość może być ważnym kryterium wyboru. Na ten moment nie ma on swojego domyślnego interfejsu, ale dostępny jest poprzez interfejs Hugging Face – tam generowałem odpowiedzi na testowe prompty. Pozostałe testowaliśmy z użyciem ich domyślnych środowisk webowych.

Dużym wyzwaniem było także dobranie chatbotów  i modeli w ich ramach – ostatecznie jest ich 12. Nie są one dokładnie z tej samej półki, co szerzej opisuję w metodologii badań. Starałem się jednak dobrać je w taki sposób, aby jak najlepiej zaprezentować bieżący stan rozwoju AI i cechy charakterystyczne poszczególnych grup. Myślę, że w ten sposób najlepiej patrzeć na wyniki moich badań – głównie przez pryzmat grup rozwiązań, a w mniejszym stopniu konkretnych modeli/narzędzi.

Wśród modeli językowych są zamknięte rozwiązania amerykańskie, jest relatywnie otwarty model firmy Meta, modele otwarte, których autorami są Chińczycy, oraz europejskie modele, które możemy pobrać i wykorzystać na własnej infrastrukturze.

Mapa dużych modeli językowych (LLM) 2026

Z Zespołem przygotowaliśmy 20 scenariuszy testowych: 10 odnosiło się do kwestii zawodowych, a 10 do innych aspektów, które moglibyśmy zaadresować LLM-om. Różnorodność tematów jest więc relatywnie spora. Łącznie do przeanalizowania 240 odpowiedzi.

To, co istotnie odróżnia moje badania, to fakt, że w ocenie uczestniczyli ludzie i że bazowaliśmy na promptach, które wymagały odpowiedzi otwartych. Prompty obejmowały następujące kategorie (przypisane do nich linki przenoszą do odpowiednich sekcji na tej stronie):

  1. Polska kultura i zwyczaje
  2. Język polski – poprawność językowa
  3. Fakty na temat Polski
  4. Dedukcja w oparciu o wiedzę o Polsce
  5. Humor
  6. Polskie firmy
  7. Komunikacja mailowa
  8. Zarządzanie firmą i zespołem
  9. Prawo i podatki
  10. Marketing

Niektóre odpowiedzi dało się zweryfikować według dosyć jasno określonego klucza, natomiast inne wymagały bardzo subiektywnego spojrzenia. Tym samym najlepiej patrzeć na te wyniki w kontekście swoich zastosowań i w zestawieniu z benchmarkami. Jednocześnie pamiętajcie, że benchmarki bazują na syntetycznych testach i niezbyt trafnie odzwierciedlają sposób, w jaki korzystamy na co dzień z LLM-ów.

Celów badań było kilka. Chciałem dokonać próby określenia miejsca, w którym jesteśmy, jeżeli chodzi o rozwój modeli językowych. Badania stanowią one też próbę uzyskania odpowiedzi, czy płacąc abonament uzyskujemy wyraźnie wyższą jakość oraz jak modele europejskie czy ogólnie modele otwarte wypadają w zestawieniu z modelami stricte komercyjnymi.

Stawiam tezę, że humor może być ostatecznym testem, czy modele językowe są w stanie generować treść dorównującą człowiekowi. Wyniki modeli językowych na bazie moich badań są na tyle słabe, że należy uznać, że na ten moment LLM-y po prostu nie radzą sobie z humorem.  Trudno mi sobie wyobrazić taki test w benchmarku.

Kolejność modeli na wykresach nie jest przypadkowa. Jest pokłosiem uzyskanych wyników, charakteru modeli oraz tego, z jakiego regionu się wywodzą. Przygotowałem grafikę, która opisuje, jak czytać wykresy:

Badania i ranking modeli językowych - jak czytać wykresyWięcej informacji w metodologii u dołu strony.

Ogólny ranking – najlepsze modele językowe

Wielu z Was interesuje przede wszystkim końcowy ranking, więc zaraz go zaprezentuję.

Zachęcam jednak, żeby przeczytać cały raport i zapoznać się z zadaniami, bo wnioski dotyczące udzielonych odpowiedzi są momentami niezwykle ciekawe. Przedstawiłem też końcowe wnioski i to, jak sam planuję wykorzystać wyniki badań.

Wyścig o supremację w AI

Wybierajmy modele językowe kierując się przede wszystkim zadaniami do wykonania i ograniczeniami. Tak, jak wybieramy najlepszy dla nas pojazd, aby przemieścić się z punktu A do punktu B.

Ogólne wyniki – przyznam szczerze – były dla mnie zaskoczeniem. Pewnych rezultatów się spodziewałem, jak chociażby wysokiego wyniku chińskiego modelu Qwen 3.5, ale nie aż tak dobrych ocen. Llama też zaskoczyła jakością. Ale chyba najistotniejszym wnioskiem jest to, że różnica pomiędzy niektórymi otwartymi modelami a ich komercyjnymi odpowiednikami jest bardzo niewielka.

Na wykresie kilka akapitów dalej zobaczycie średnią ze wszystkich 20 ocen. Zwycięzcą całego badania jest model Gemini 3.1 Pro. Zaznaczam jednak raz jeszcze, że ten model nieco wybija się swoją „złożonością”, można więc powiedzieć, że Google „grało na kody”. Zdecydowałem się na Pro, bo tylko ten zaawansowany wariant był dostępny w najnowszej wersji 3.1 (więcej w metodologii). Efekt: ocena Gemini może być nieznacznie zawyżona na tle pozostałych modeli. Czy tak jest i ewentualnie jak bardzo, ocenimy na koniec, gdzie zamieszczę wyniki moich dodatkowych testów modeli rozumujących.

Jednak to miejsce drugie i trzecie są najbardziej interesujące. Zajęły je modele, które można pobrać i zainstalować na swojej infrastrukturze. Czytajcie: na ogromnych serwerach, z mnóstwem RAM-u i najlepiej z wyspecjalizowanymi procesorami do obsługi modeli językowych. Mamy tu wspomnianego chińskiego Qwena tworzonego przez koncern Alibaba oraz Llamę 4, która działa w ramach chatbota Meta.ai.

Kolejne wyniki są już dosyć zbliżone i należą do modelu GPT-5.2 działającego w ramach ChataGPT, Groka 4.2 – obecnie w wersji beta – oraz Clauda Sonnet 4.6. Podobny rezultat zanotował także Microsoft 365 Copilot, który działa de facto na podstawie modelu GPT-5.2 od OpenAI.

Ranking zamykają modele o charakterze otwartym: DeepSeek i dalej modele europejskie z Mistralem na czele. W badaniu chciałem uwzględnić – jak wspominałem – model EuroLLM, ale widać, że jest on dopiero na początku drogi i w ogólnym rozrachunku zanotował najsłabsze wyniki.

Wyniki ogólne na bazie średnich ze wszystkich zadań:

Badania LLM 2026 - wyniki ogólne

Z ogółu ocen wydzieliłem te odnoszące się do promptów związanych z pracą. Stanowiły one połowę testów (czyli 10). Takie wycinkowe podejście do oceny nie powoduje wielkich różnic w rankingu. Warto zauważyć, że do pierwszej trójki wskakuje Claude Sonnet 4.6 oraz że ogólnie wyniki z kategorii praca są nieco wyższe od średnich ogólnych. Dlaczego? Między innymi z powodu tego, że modele są… nieśmieszne – zwłaszcza gdy odpowiadają po polsku – a poświęcone temu były dwa zadania (komicy, nie czujcie się zagrożeni, przynajmniej na razie ;)). Powodów można znaleźć jeszcze kilka, o czym przeczytacie dalej.

Wyniki średnie z 10 zadań odnoszących się do pracy zawodowej:

Badania LLM 2026 - kategoria Praca

Gdy po kilku dniach ponownie spojrzałem na te wyniki naszła mnie refleksja, która może wzbudzić kontrowersje. W czołowych laboratoriach AI (jak zwykło nazywać się twórców AI – nie wiem, dlaczego) powstają modele, które rywalizują ze sobą w zaawansowanych benchmarkach. Konkurują ze sobą pod kątem tego, który najlepiej rozwiąże olimpiadę, który wykażę się największą logiką, który naprawdę dorównuje poziomowi doktoratu. To jest super, modele powinny rozwijać się tak, by dawać jak największą wartość. Ale czy to jest naprawdę to, czego ludzie najbardziej potrzebują na co dzień? Może w „zwykłym życiu” potrzebujemy modelu, który po prostu najlepiej napisze trudnego maila i stworzy szkic prezentacji, żeby nie zaczynać z pustą kartką. Może w tym wyścigu niektóre firmy inaczej rozkładają naciski i tym samym dla tych „czołowych” dostawców modeli komercyjnych (jak zwykliśmy o nich myśleć, a przynajmniej ja) te oceny to okazja do refleksji, czy jednak nie zmienić trochę akcentów.

I jeszcze jedna myśl. Tego nie znamy w pełni, bo do pewnego stopnia obejmuje to tajemnica handlowa, ale pytanie, które modele komercyjne działają w okrojonej wersji i w jakich planach abonamentowych (w kontekście badań, na ile konfiguracja ograniczająca możliwości odnosi się to planów za 20-30$ dolarów). Oraz, z drugiej strony, czy i jakie zabiegi optymalizacyjne stosują Meta i Alibaba w swoich oficjalnych chatobotach względem domyślnej konfiguracji. W optymalizacji nie widzę nic szczególnie złego, ale może to wpływać na ocenę pracy (oczekiwania, a nawet to, co realnie widzimy korzystając z API, vs rzeczywistość w chatobcie).

Odnośnie do modeli europejskich – te wypadły najsłabiej, co tu ukrywać. Z pełną mocą chcę jednak podkreślić, że to nie znaczy, że mamy kiepskich specjalistów – wręcz przeciwnie. To oznacza, że musimy istotnie dofinansować ten sektor i stworzyć stabilne rozwiązania prawne. Nie mogę koloryzować rzeczywistości i do wyników podchodziłem najuczciwiej jak potrafię. Ale mogę trzymać kciuki!

Zanim przejdę do omówienia szczegółowych wyników, chciałbym tu przedstawić Wam moje uśrednione oceny. Jak widać, kolejność jest nieco inna.

Wyniki ogólne na bazie tylko moich ocen:

Badania LLM 2026 - uśrednione oceny Marka Jeleśniańskiego

Moje uśrednione oceny dla odpowiedzi na prompty związane z pracą:

Badania LLM 2026 - wyniki Marka Jeleśniańskiego z kategorii praca

Ciekawostka: w internecie można trafić na wyniki testu PLCC, który na zasadzie benchmarku sprawdza modele językowe z użyciem promptów w języku polskim. W tym podejściu dostajemy zazwyczaj krótkie odpowiedzi, które oceniane są zero-jedynkowo, a zatem niekoniecznie odpowiadają „przeciętnemu” sposobowi pracy z LLM-em. Niemniej widać pewne podobieństwa do wyników, jakie uzyskaliśmy w moim badaniu. Na pierwszych miejscach mamy modele od Google – z Gemini 3.1 Pro na czele. Dalej są modele od OpenAI (przoduje GPT-5 Pro) i Grok od xAI. Co jednak szczególnie chciałbym podkreślić: Qwen oraz Llama w tekście PLCC są na relatywnie odległych miejscach. Zaryzykowałbym zatem tezę, że niektóre modele są po prostu uniwersalnie dobre – bez względu na to, czy pracujemy z nimi na co dzień, czy testujemy je na krótkich odpowiedziach, często pytając o bardzo szczegółowe kwestie, zlecając zadania logiczne lub z obszaru matematyki. Inne natomiast rozwijają skrzydła w „codziennych” zadaniach, generując po prostu sensowne odpowiedzi w języku naturalnym.

Zestawienie modeli wg benchmarku PLCC z 9 marca 2026 roku jest następujące:

Wyniki benchmarku PLCC badającego modele pod kątem języka polskiego

Źródło: huggingface.co/spaces/sdadas/plcc

Bierzmy się za omówienie konkretnych zadań z naszych testów.

Testy związane z wiedzą o Polsce i Polakach

Przejdźmy do krótkiego omówienia każdego z 20 zadań. Odnosiły się one do 10 kategorii, stąd numeracja to 1a, 1b, 2a, 2b itd. 5 kategorii dotyczyło ogólnej wiedzy, języka i kultury, a 5 kolejnych spraw zawodowych.

Polska kultura

Pierwsze zadanie dotyczyło przytoczenia pierwszych 12 wersów Pana Tadeusza, czyli fragmentu inwokacji. To zadanie zlecałem modelom już w trakcie testów pilotażowych, bo zauważyłem, że po pierwsze dla modeli pewnym wyzwaniem jest bezbłędne przytoczenie bardzo konkretnego fragmentu tekstu, a po drugie, że niektóre modele zasłaniają się chociażby prawami autorskimi/licencjami, które naturalnie nie mają już zastosowania do utworu Adama Mickiewicza.

Modele dzielą się tutaj co do zasady na dwie grupy: te, które poradziły sobie z zadaniem, po czym mamy długo, długo nic i na końcu te, które całkowicie poległy.

Zadanie 1a – cytat z Pana Tadeusza:

Następny prompt dotyczył polskich zwyczajów związanych z Bożym Narodzeniem. Odpowiedzi zostały ocenione jako całkiem przyzwoite, a wyniki są relatywnie wyrównane. To, z czym modele sobie nie poradziły, to zwrócenie uwagi na różnice regionalne – żaden z nich sam od siebie nie napisał, że nieco inaczej obchodzi się święta w różnych regionach Polski. Tym samym żaden z modeli nie zbliżył się do maksymalnej oceny.

Zadanie 1b – zwyczaje bożonarodzeniowe:

Język polski – poprawność językowa

Przyznam, że zadanie 2a nie było proste w ocenie dla osób uczestniczących w badaniu i stąd, jak sądzę, relatywnie spory rozstrzał wyników. Dotyczyło korekty tekstu w języku polskim, który zawierał wiele błędów, ale był też trudny. Trzeba było zrozumieć chociażby to, że Jan i Janusz to w języku polskim zupełnie różne imiona. I tu rezultaty są dosyć ciekawe: najwyższą ocenę uzyskała Llama od Mety, a dopiero za nią znalazły się modele komercyjne. Całkiem przyzwoity wynik – lepszy niż polskie modele Bielik czy PLLuM – uzyskał EuroLLM.

Zadanie 2a – korekta tekstu:

W zadaniu 2b w prompcie zawarte były trzy pary słów. Zadaniem modelu językowego było wskazanie poprawnego słowa z danej pary i uzasadnienie wyboru. Z dwoma pierwszymi parami modele nie miały większego problemu. Wyzwaniem okazała się trzecia para – zestawienie słów „pomoże” (od „pomóc”) oraz „pomorze” (błąd celowy) jako region geograficzny.

Qwen 3.5 Plus - test LLM

Qwen 3.5 korzysta z tokenizatora, który niezależnie traktuje słowa zaczynające się wielką literą i te pisanych małymi literami. Na przykład słowa “Apple” i “apple” są dla modelu zupełnie innymi jednostkami (tokenami). A mimo to Qwen nie poradził sobie z trzecim przykładem.

Część modeli w uproszczeniu nie była w stanie wychwycić, że słowo „pomorze” pisane jest małą literą, i w trzeciej parze wskazywała oba słowa jako poprawne. Nie wynika to jednak z ograniczeń w odczytywaniu znaków – współczesne modele AI rozróżniają wielkość liter. Sądzę, że problem leży w specyfice ich działania: sztuczna inteligencja czasem faworyzuje ogólne znaczenie słowa ponad jego ścisłą analizę ortograficzną. Rozpoznając znaczenie nazwy geograficznej, mechanizmy modelu nierzadko „przymykają oko” na błędy zapisu, co prowadzi do błędnego założenia o poprawności formy.

Co ciekawe, EuroLLM uzyskał tu zdecydowanie najsłabszy wynik, mimo że wcześniej, w teście związanym z korektą, był mniej więcej w okolicach średniej.

Zadanie 2b – wskazanie poprawnych słów:

Fakty na temat Polski

Kolejne zadanie wymagało od modeli przytoczenia faktów na temat Polski – bardzo zależało mi na tym, żeby były możliwie aktualne. Dodatkiem były pytania o najzabawniejszego i najmądrzejszego Polaka.

W ocenie uczestników badania mocno wybija się Qwen 3.5 Plus. Można więc powiedzieć, że chiński model najlepiej wskazuje fakty dotyczące Polski. Dalej plasują się głównie modele komercyjne. Wśród polskich modeli Bielik poradził sobie z tym zadaniem wyraźnie lepiej niż PLLuM. Bardzo słaby wynik zanotował DeepSeek.

Zadanie 3a – bieżąca wiedza o Polsce:

W ramach pytania 3b ważne było dla mnie sprawdzenie, jak modele językowe będą nazywać obozy koncentracyjne, które znajdowały się na terenie okupowanej Polski. Okazuje się, że prawda historyczna oddana została całkiem dobrze. Pytaniu o nazwę towarzyszyły jeszcze trzy inne związane z Holokaustem.

Zadanie 3b – prawda historyczna:

Być może zdziwił Was wynik Bielika, który odmówił odpowiedzi. Co ciekawe, zrobił to po angielsku, powołując się na to, że temat jest kontrowersyjny. Testy ponowiłem w trakcie pisania raportu i relatywnie często dostawałem odmowę po angielsku, choć czasem Bielik odpowiadał. Czyli nie jest tak, że temat Holokaustu jest konsekwentnie „na cenzurowanym” – raczej widać tu niestabilność zachowania modelu.

Bielki 3.0 odmówił odpowiedzi na pytania o Holokaust. W dodatkowych testach, które wykonałem, czasem odpowiadał i to poprawnie, ale komunikaty jak wyżej występowały +/- równie często, co konkretne odpowiedzi. Powinno być to łatwe do poprawy.

Dedukcja w oparciu o wiedzę o Polsce

Dwa kolejne zadania były związane z dedukcją na podstawie znajomości faktów na temat Polski.

Jako fan pociągów bardzo chciałem, aby pojawił się temat kolei i sprawdzić, jak poradzą sobie z nim poszczególne modele. W zadaniu 4a na bazie opisu miały wskazać, skąd i dokąd jechał pociąg wykorzystując wskazówki zawarte w prompcie. Większość modeli poradziła sobie z tym zadaniem bardzo dobrze: poprawnie wskazały miasta i dobrze uzasadniły swoje wybory. Najgorzej wypadły Mistral oraz EuroLLM.

Zadanie 4a – skąd i dokąd jechał pociąg:

Drugie zadanie na dedukcję (4b) odnosiło się do najnowszej historii Polski. Na bazie opisu przedsiębiorcy trzeba było odpowiedzieć na kilka pytań: kiedy ten przedsiębiorca rozpoczął działalność, kto był wówczas prezydentem oraz jakie kluczowe wydarzenie z historii Polski może być powiązane z jego historią.

Wyniki były bardzo dobre. Praktycznie wszystkie modele udzieliły sensownych odpowiedzi; między nimi pojawiały się jedynie drobne różnice. Wyraźnie najlepiej wypadł Grok: nie tylko dlatego, że uzyskał niemal maksymalną średnią, bo 9,9 na 10, ale również dlatego, że wśród oceniających panował relatywnie duży konsensus.

Zadanie 4b – zagadka o przedsiębiorcy:

Humor

Teraz będzie się działo! Przechodzimy do kategorii, która była zdecydowanie najtrudniejsza dla modeli językowych i w której jednocześnie najmocniej widać subiektywizm oceny.

W ramach zadania 5a modele językowe miały zaproponować dowcip, który rozśmieszy każdego Polaka. Przyznam szczerze, że mnie żaden dowcip jakoś szczególnie nie rozbawił – były lepsze lub gorsze, ale żaden nie dorównał nawet średnio zabawnemu kabaretowi. Podczas mojej oceny zwracałem uwagę na to, czy w żartach pojawią się krzywdzące stereotypy dotyczące Polski i Polaków. Trochę ich się przewinęło, co pokazuje, jaka wiedza o Polsce krąży po internecie.

Średnia ocen jest bardzo kiepska. Najlepiej wypada Gemini, potem Grok, a następnie Claude. Wszystkie pozostałe uzyskały średnią poniżej 5,0.

Zadanie 5a – dowcip, który rozśmieszy każdego Polaka:

Poniżej przykład dowcipu, gdzie rozbieżność ocen była kolosalna. Cóż, dowcip jest… sami oceńcie:

Przykład dowcipu, który wygenerowała Llama. Przyznacie, że przewijają się tutaj stereotypy, które nie są powodem do dumy.

Zanim przejdziemy do wątków już stricte biznesowych: ostatni prompt dotyczył przygotowania scenariusza radiowego, w którym modele językowe miały opisać w sposób zabawny, jak wygląda poranny dojazd do pracy w Polsce. Tu też wyniki są raczej rozczarowujące. Ponownie najlepiej z polskim humorem poradził sobie Gemini.

Zadanie 5b – humorystyczny scenariusz radiowy:

Postawię tezę, że humor będzie jednym z ostatecznych testów, czy modele językowe są w stanie dorównać człowiekowi.

Testy związane z pracą zawodową

Przechodzimy do zadań, które odnoszą się do różnorodnych obowiązków zawodowych.

Polskie firmy

Zadanie 6a polegało na wypisaniu pięciu firm wraz z datami ich założenia oraz nazwiskami założycieli. Należało je zwrócić w kolejności chronologicznej. Tu większość modeli poradziła sobie całkiem dobrze – jedynie EuroLLM zwracał błędy zamiast odpowiedzi. Za to polski PLLuM uzyskał wynik zbliżony do modeli komercyjnych.

Zadanie 6a – polskie firmy IT

Co ciekawe, najczęściej w odpowiedziach modeli pojawiały się firmy Comarch SA, LiveChat (Text), Asseco oraz CD Projekt. Widać zatem, że te firmy są semantycznie najbardziej powiązane z ideą polskiej firmy IT. Przykładowa odpowiedź udzielona przez PLLuM 8x7B-2025:

W odpowiedzi udzielonej przez model PLLuM przewijają się dwie firmy, których nie spotkałem w innych odpowiedziach: G2A oraz Silentium. Dane na temat tej drugiej nie są poprawne; zapewne z resztą chodziło o inną markę: SilentiumPC. Ta odpowiedź była dość trudna w weryfikacji, więc ktoś łatwo mógłby w nią uwierzyć.

W ramach kolejnego zadania modele językowe miały wskazać, jakie kryteria powinna spełniać najbardziej innowacyjna polska firma. Miały też zaproponować trzy konkretne firmy spełniające te kryteria oraz uzasadnić wybór. Dodatkowym wymaganiem było oznaczenie w odpowiedni sposób charakteru zdań w uzasadnieniu: czy to fakt, czy opinia.

I tu modele językowe uzyskały całkiem wyrównane wyniki, ale jest jeden wyjątek. Tak jak wcześniej chwaliłem model PLLuM, tak tym razem zdecydowanie poległ.

Zadanie 6b – najbardziej innowacyjne firmy

Komunikacja mailowa

W zadaniach 7a i 7b modele językowe miały napisać e-maile.

Pierwszy mail dotyczył szkolenia z zakresu sztucznej inteligencji, przy czym trzeba było w kurtuazyjny sposób przemycić informację o potencjalnym zagrożeniu brakiem premii, jeśli ktoś nie zrealizuje szkolenia.

Drugi mail – pewnie niejednokrotnie dostaliście coś podobnego – odnosił się do paneli fotowoltaicznych i miał być skierowany do firmy produkującej meble.

Wyniki są relatywnie zbliżone. Najlepiej, jeśli chodzi o pisanie maili, ocenione zostały Gemini, Grok i Claude. Zwróćcie uwagę, że w zadaniu dotyczącym maila o panelach fotowoltaicznych dobry wynik osiągnął DeepSeek, za to Qwen wypadł gorzej – jest gdzieś mniej więcej w środku stawki.

Oto wyniki:

Zadanie 7a – e-mail dotyczący szkolenia z zakresu AI

Zadanie 7b – e-mail sprzedażowy do firmy meblarskiej:

Zarządzanie firmą i zespołem

Prompt 8a odnosił się do porady doświadczonego przedsiębiorcy: co mógłby podpowiedzieć komuś, kto dopiero planuje rozpocząć działalność. W procesie oceny ważne było, by była to jedna i możliwie konkretna rada i aby faktycznie dotyczyła etapu przez założeniem firmy.

Wybijają się przede wszystkim Claude Sonnet 4.6, Qwen 3.5 Plus oraz Microsoft 365 Copilot (po raz pierwszy w top 3). Dla oceniających ich odpowiedzi okazały się najbardziej inspirujące, a jednocześnie faktycznie stanowiły jedną poradę – zgodnie z poleceniem.

Zadanie 8a – porada dla przyszłego przedsiębiorcy:

W ramach kolejnego zadania modele językowe też miały doradzić, ale w kontekście problemów menedżerskich: jak możemy zachować się w sytuacji, gdy pracownik notorycznie spóźnia się z realizacją zadań, co negatywnie wpływa na pracę zespołu. Najlepsze i jednocześnie zbliżone oceny uzyskały Qwen, Llama, Gemini, Claude Sonnet 4.6 oraz Mistral. Pozostałe modele… wypadły raczej przeciętnie.

Zadanie 8b – porada dla menedżera zespołu:

Prawo i podatki

Co obserwuję z miesiąca na miesiąc, to że modele językowe coraz lepiej radzą sobie ze zmianami w prawie i zwracają odpowiedzi osadzone w aktualnych przepisach. Dzieje się tak między innymi za sprawą dostępu do internetu. Co ważne, ten pogląd dotyczy relatywnie prostych sprawy i gdy niekoniecznie zależy nam na dokładnych namiarach na paragrafy. I takie właśnie było kolejne zadanie. Modele językowe miały udzielić informacji, jakie stawki VAT należy zastosować w dwóch opisanych w prompcie sytuacjach.

Większość modeli poradziła sobie z tym zadaniem dobrze. Złych odpowiedzi częściowo udzieliły DeepSeek oraz Mistral. Zdecydowanie najgorzej wypadł EuroLLM, który stworzył coś w rodzaju nowych ulg podatkowych. Brzmi pięknie! Szkoda tylko, że to halucynacja.

Zadanie 9a – pytanie o stawki VAT:

To zadanie było też przedmiotem testów pilotażowych, o których wspominałem. Jeszcze w 2024 roku tylko 3 z 9 testowanych wówczas modeli udzieliło dobrych odpowiedzi: o1-preview od OpenAI, Copilot for Microsoft 365 (ówczesna nazwa) oraz Bielik 2.3. Ogólnie Bielik w tych testach bardzo mnie zaskoczył na plus i wysłałem gratulacje dla fundacji SpeakLeash.

Fragment odpowiedzi, którą zwrócił ChatGPT. Jednocześnie jedna z dwóch, która spodobała mi się najbardziej. Tę samą ocenę otrzymał ode mnie Gemini.

Zadanie 9b także odnosiło się do prawa – tym razem do prawa konsumenckiego. Co ciekawe, wyniki są bardziej wyrównane, co może być zasługą chociażby mnóstwa regulaminów i dyskusji na forach, które trafiły do zasobów treningowych modeli. Wszak te kwestie dotyczą w jakimś stopniu nas wszystkich.

Na prowadzenie wysuwają się Gemini 3.1 Pro oraz ChatGPT (GPT-5.2). Przyzwoite i zbliżone do siebie wyniki uzyskały także Grok, Claude, Qwen oraz Microsoft 365 Copilot. Najgorzej ponownie wypadł EuroLLM – można chyba uznać, że ten model na razie nie jest dobrym kompanem w sprawach prawno-podatkowych.

Zadanie 9b – opinia dot. prawa konsumenckiego:

Marketing

No i na koniec przyszła pora na zadania marketingowe, gdzie z natury rzeczy poziom subiektywizmu ocen był relatywnie wysoki.

W ramach pierwszego zadania modele językowe miały zaproponować treść prezentacji dotyczącej krakowskich obwarzanków. Po pierwsze, modele musiały wiedzieć, czym są obwarzanki i że nie są to precle – to udało się dobrze. Należało w niej przedstawić też koncepcję kampanii reklamowej, zaproponować miejsca sprzedaży, rozplanować budżet i wymyślić hasło reklamowe. Najlepiej z tym zadaniem poradził sobie Qwen, ale całkiem przyzwoite i wyrównane wyniki osiągnęły także Mistral, Gemini, Grok, GPT-5.2, Llama i… EuroLLM.

Chcę zwrócić Waszą uwagę na duży rozrzut ocen w przypadku Claude’a 4.6, ponieważ ten model nie zwrócił treści prezentacji – nie posłuchał promptu i oddał gotową prezentację. Dla niektórych oceniających było to pewnie plusem, bo stanowiło formę dodatkowej inicjatywy; dla innych wręcz przeciwnie, ponieważ nie było to zgodne z założeniami promptu. W mojej ocenie ta prezentacja nie nadawała się do bezpośredniego wykorzystania – wolałbym otrzymać treść i na niej bazować w dalszych pracach.

Zadanie 10a – strategia promocji i sprzedaży obwarzanków:

I wreszcie ostatnie zadanie. Dotyczyło spotu reklamowego, który miał promować podróże biznesowe pociągami EIP od PKP Intercity. Przyznam, że kilka propozycji modeli całkiem przypadło mi do gustu, choć kreatywność LLM-ów ma charakter odtwórczy, na próżno więc szukać efektu wow. Największą przychylnością ogółu oceniających cieszyły się odpowiedzi od Claude’a, Qwena, Gemini i Groka.

Zadanie 10b – spot reklamowy:

W zadaniach marketingowych nieco rozczarowały mnie wyniki ChatuGPT, którego obstawiałbym jako faworyta tej ostatniej kategorii.

Propozycja Claude’a została oceniana ogólnie najlepiej, a przeze mnie… niemal najgorzej. Widać, jak subiektywnie podchodzimy do odpowiedzi LLM.

Najlepszy model AI – wybór z innej perspektywy

Byłbym bardzo ostrożny z wyciąganiem daleko idących wniosków na podstawie tych zadań, np. że skoro Qwen jest za darmo i uzyskał wysokie noty, to trzeba anulować wszystkie subskrypcje komercyjnych narzędzi, bo po co płacić. Muszę z resztą zaznaczyć, że z uruchomieniem oficjalnego chatbota Qwena miałem pewne problemy, o czym mowa w metodologii. Możecie co prawda skorzystać z wersji hostowanej przez innego operatora (nieoficjalnego chatbota opartego na Qwenie), pytanie, czy i jak będą wykorzystywane Wasze dane, jakie są dodatkowe funkcjonalności etc.

Jednocześnie widać jak na dłoni, że to nie jest tak, iż modele komercyjne są w każdym zadaniu najlepsze i że wśród nich jest jakiś jeden superbohater, który poradzi sobie absolutnie najlepiej z każdym zadaniem. Dlatego warto – moim zdaniem – spoglądać na te zadania, które dotyczą Was w sposób szczególny, mając z tyłu głowy średnią ze wszystkich ocen. W kontekście zawodowym to właśnie takie podejście do wyników powie coś więcej o tym, jak w odniesieniu do danego zakresu obowiązków poszczególne modele radzą sobie z językiem polskim, w jakim stopniu znają fakty na temat Polski, jak rozumieją nasz kontekst społeczno-biznesowy i czy są w stanie zadowolić nas swoją kreatywnością – bo humorem to niestety nie bardzo. W ten sposób możecie dobrać modele do testów i wybrać ten, który nie tylko będzie odpowiadał Wam jakością, ale też całym zestawem narzędzi towarzyszących.

Poniżej przygotowałem dodatkowe, zbiorcze zestawienia – z poszczególnych zadań podziałem na 10 testowanych obszarów wykorzystania modeli. Chatbotom przypisałem 0, 1 lub 2 punkty. Średnia oceniających dla danego zadania powyżej 8,5 pozwala uznać, że model dobrze sobie z nim poradził (dwa punkty), a 7 lub więcej, że jest całkiem okej (jeden punkt). Zobaczmy, ile punktów zbiorą modele, gdy tak podejdziemy do rankingu.

Spójrzcie też na średnią ogólną dla danej kategorii zadań – widać jak na dłoni, w czym modele językowe są ogólnie dobre, a w czym nie. Zadania z zakresu prawa i podatków, które przygotowałem dla modeli, powinny być chyba trudniejsze 😉

Tabela: klasyfikacja modeli z przyznaniem punktów na bazie średniej ocen pozwala nieco inaczej spojrzeć na ranking:

ObszarZad.GeminiChatGPTGrokClaudeCopilotLlamaQwenDeepSeekMistralBielikPLLuMEuroLLMŚrednia
Kultura1a++++++++++++6,6
1b++++++++++
Język2a+6,6
2b++++++++++++++
Fakty3a++++++7,1
3b+++++++++++++++
Dedukcja4a++++++++++++++++++8,4
4b+++++++++++++++++++
Humor5a4,4
5b
Firmy6a++++++++++++++++7,4
6b+++++++++
E-mail7a++++++++7,3
7b++++++++++
Zarządz.8a++++6,8
8b+++++++
Prawo9a++++++++++++++++++8,2
9b+++++++++++++++++
Marketing10a++++++++7,1
10b++++++++
Suma23🥇21🥉1822🥈2022🥈23🥇13111196
Suma – tylko praca12🥈101012🥈13🥇11🥉12🥈56653

Dogrywka – starcie modeli zaawansowanych

Żeby sprawdzić, jak bardziej zaawansowane modele rozumujące sprawdzą się w porównaniu z zaawansowaną wersją Gemini 3.1 Pro, zrobiłem dogrywkę.

Już samodzielnie (bez udziału pozostałych 10 uczestników) poddałem ocenie zaawansowane modele na platformach ChatGPT, Claude oraz Grok ChatGPT, Claude oraz Grok. Jak zobaczycie na poniższych wykresach, jedynie w przypadku Claude’a obserwuję dużą różnicę w ocenach – Opus 4.6 ma wyraźną przewagę w jakości nad Sonnetem 4.6. Jednocześnie pierwsza pozycja Gemini 3.1 Pro wciąż wydaje się niezagrożona. Jeżeli można zaufać moim ocenom, to jednocześnie należy uznać, że decyzja, aby postawić na najnowszą wersję modelu 3.1, a jednocześnie najbardziej zaawansowaną nie wpłynęła istotnie na finalny ranking (ta decyzja, przyznaję i opisuję szerzej w metodologii, była pewnym ryzykiem).

Jaśniejszym kolorem dodałem oceny wszystkich oceniających dla Gemini 3.1 Pro oraz mniej zaawansowanych/automatycznie dobranych modeli. Dla poprawności metodologicznej sugeruję jednak skupić wzrok na ciemno-niebieskich słupkach.

Ranking modeli zaawansowanych obejmujący wszystkie testy:

Ranking zaawansowanych modeli AI - ogólny

Ranking modeli zaawansowanych uwzględniający tylko zadania związane z pracą:

Ranking zaawansowanych modeli AI - praca i scenariusze zawodowe

* Dla porównania dodałem średnią ocenę z zasadniczej fazy badań, opartą o oceny odpowiedzi wszystkich 11 uczestników. Dogrywka była realizowana wyłącznie z moim udziałem, dlatego rekomenduję porównywanie wyników dogrywki z moimi wcześniejszymi ocenami (ciemno-niebieskie słupki).

Zwrócę uwagę na pewną ciekawostkę – udało mi się uwzględnić model GPT-5.4 Thinking, który miał swoją premierę raptem kilka dni temu (model 5.3 jest tylko w wersji Instant). Jak widać, model 5.4 jest nieco lepszy od 5.2, co mnie cieszy, bo 1) postęp prawie zawsze jest na plus i 2) nie ukrywam/-łem, że lubię styl odpowiedzi modeli OpenAI, co widać po różnicy moich ocen od ocen ogółu.

Ranking modeli AI i moje wnioski

Pozwólcie, że podzielę się swoimi przemyśleniami na temat tego, jak uzyskane wyniki będę się starał zaadaptować do swojej pracy.

Po pierwsze, na pewno nie będę patrzył na wyniki modelu samego w sobie. Gdy pracujemy z danym narzędziem, interesują nas przede wszystkim odpowiedzi – ale nie tylko to powinno być decydujące. Ważny jest też cały ekosystem funkcjonalności i integracji, które dostajemy wraz z modelem językowym. Dotyczy to naturalnie głównie modeli komercyjnych.

Tutaj, ze względu na pole position, moim zdaniem cały czas wyróżnia się ChatGPT, ponieważ pozwala korzystać z kanwy (wiele innych narzędzi też) i daje dostęp do funkcjonalności projektów niezależnie od modeli wyspecjalizowanych (modeli GPT). Mamy duże możliwości personalizacji działania. Dodatkowo możemy wykorzystać tryb Agent Mode. Gemini i Copilot mają z kolei tę przewagę, że ich twórcy odpowiadają też za pakiety biurowe.

Myślę, że i ze względu na przyzwyczajenia, i fakt, że po prostu lubię sposób w jaki odpowiada ChatGPT, to wciąż będzie mój pierwszy wybór. Claude jest i zapewne wciąż będzie wykorzystywany przez moją firmę jako główny model do tworzenia kodu.

Sądzę jednak, że jeszcze więcej zadań będę zlecał Gemini, a już i tak jest tego sporo. Od dawna obserwuję rozwój modeli od Google – Gemini 2.5 to tak naprawdę pierwsza wersja, która zaczęła mnie zadowalać odpowiedziami. Z wydania na wydanie jakość pracy Gemini wygląda coraz lepiej, aż w końcu Gemini trafia na szczyt (w testach z 2024 roku był poza top 3, a w 2025 roku już na trzecim miejscu). Jeśli Google utrzyma tempo, ma szansę umocnić pozycję Gemini jako najlepszego modelu komercyjnego i tym samym przekonywać do siebie kolejnych użytkowników, którzy nie chcą albo nie mogą sobie pozwolić na korzystanie z rozwiązań otwartych.

Ranking najlepszych modeli językowych - wybór modelu AI

Wybór najlepszego rozwiązania można porównać do wyboru domu – dla jednych pałac będzie spełnieniem marzeń, a dla innych będzie niepraktyczny.

Jednak to, co chyba najbardziej rzuca się w oczy w wynikach, to wysoka pozycja Qwena oraz Llamy. Są to modele, które – jak pisałem – można zainstalować na swojej infrastrukturze. Sięgają więc po nie choćby firmy i instytucje, które muszą mieć niezależne serwery. Nie wykluczam, że w firmie, którą prowadzę, będziemy wykorzystywać te modele w niektórych produktach. Szczególnie tam, gdzie niezależność infrastrukturalna jest szczególnie ważna.

Do tej pory doradzałem klientom, którym zależało na tym, żeby mieć model „u siebie”, aby sprawdzili Llamę i polskiego Bielika. W tym momencie do tej listy na pewno trafi Qwen.

Z Qwenem miałem jednak pewien problem: wydaje mi się, że w ramach narzędzia webowego jest sporo trackerów (kody śledzące), ponieważ nie udało mi się uruchomić go na przeglądarce Vivaldi, gdzie mam dość restrykcyjne ustawienia prywatności. Musiałem skorzystać z innej przeglądarki. To – moim zdaniem – coś, na co warto zwrócić uwagę. I coś, co działa trochę na minus Qwena. Na ogół chińskie rozwiązania nie wzbudzają jeszcze dużego zaufania.

Wnioski na temat samych badań

Gdy obrabiałem uzyskane wyniki – a uwierzcie mi, to było bardzo pracochłonne i śmiertelnie nudne – zacząłem się zastanawiać, co możemy zrobić lepiej w kolejnych badaniach. Choćby po to, aby nie było to aż tak pracochłonne. Poza tym zawsze jest przestrzeń do poprawy.

Przykładowo rozważam, czy nie stworzymy dedykowanej aplikacji do prowadzenia tego typu badań. To umożliwiłoby chociażby ocenę trzech „rotujących” odpowiedzi danego modelu zamiast jednej. Być może dałoby to lepsze pokrycie, jeśli chodzi o faktyczne możliwości danego narzędzia. W ocenę zaangażowałem 10 osób plus oczywiście siebie – razem 11. To relatywnie dużo, bo mówimy o analizie 240 odpowiedzi i każdemu z nas zajęło to co najmniej kilka godzin. Mając dedykowaną aplikację, także ten proces można by uprościć. Grupa była bardzo różnorodna i to chciałbym zachować.

Nie chciałbym iść w kierunku założeń, na jakich opiera się działanie Arena.ai. Tam użytkownicy dostają dwie zanonimizowane odpowiedzi i wybierają lepszą. W niektórych scenariuszach, na których bazowaliśmy, odpowiedzi były bardzo wyrównane – w grę wchodziłaby więc losowość wyboru. Innymi słowy: potrzebujemy zachować możliwość nadawania ocen. Nie pójdziemy też raczej w kierunku testów benchmarkowych, zwłaszcza że założenia PLCC są w porządku.

Ranking LLM - wiele dobrych decyzji

Konkluzją badań modeli językowych może być to, że jest z czego wybierać i wiele wyborów jest dobrych! Zachęcam do Waszych własnych testów oraz dzielenia się przemyśleniami dot. mojej metodologii.

Jeśli macie jakieś sugestie, co możemy zrobić, żeby takie badania były lepsze, to jestem bardzo otwarty na Wasze propozycje.

Zachęcam też do przeczytania sekcji poświęconej metodologii badań oraz tekstów towarzyszących wynikom (są na landing page’u: Badania LLM 2026). Część z nich powstawała, gdy nie miałem nawet cząstkowych analiz, są zatem nieco prorocze 😉

Zachęcam też do subskrypcji newslettera, dzięki czemu co pewien czas otrzymasz na swoją skrzynkę unikalne i ciekawe treści na temat AI.

Metodologia badań

Cel badań modeli językowych

Moją główną motywacją było pokazanie nie tego, jak działają modele same w sobie, ale w konkretnej konfiguracji, jaką udostępniają ich twórcy na oficjalnych platformach online. Jest to istotne z co najmniej dwóch powodów:

  • to podstawowy sposób korzystania z możliwości LLM;
  • konfiguracja modelu w narzędziu może odbiegać od tego, co ta sama firma udostępnia poprzez API (i nierzadko tak jest), np. pełen rozmiar okna kontekstu może być dostępny tylko, gdy korzystamy z API i płacimy za wysłane i wygenerowane tokeny.

Można zatem zaryzykować twierdzenie, że realizowane badanie to test potencjału oficjalnych narzędzi AI tworzonych przed twórców dużych modeli językowych w generowaniu odpowiedzi.

To, na czym szczególnie mi zależało, to pokazanie, jak poszczególne modele językowe radzą sobie z rozumieniem języka polskiego, ale jeszcze bardziej z generowaniem treści w języku polskim. Na bazie przeprowadzonego doświadczenia różnice te widać bardzo wyraźnie.

Chciałem też sprawdzić poziom wiedzy o Polsce, jaką dysponują modele poszczególnych twórców, oraz dowiedzieć się, jak można wykorzystać ich potencjał w pracy zawodowej, bo to jest najbardziej interesujące dla uczestników prowadzonych przeze mnie szkoleń i projektów, które konsultujemy w Oxido.

Testowane duże modele językowe

Dobór rozwiązań, a ściśle konkretnej konfiguracji, w jakiej działały, był bardzo trudnym zadaniem. To, co starałem się osiągnąć, to konfiguracja danego narzędzia możliwie zbliżona do domyślnej i wybór najnowszego dostępnego modelu AI. Nie były ustawione żadne instrukcje niestandardowe, a gdy jakiś czatbot oferował tryb Auto, był on preferowanym wyborem działania. Modele posiadające dostęp do internetu mogły z niego korzystać.

Co chcę bardzo mocno podkreślić: w trakcie badania Gemini w najnowszej wersji 3.1 dostępny był tylko w wariancie Pro, a jest to najbardziej zaawansowana wersja tego modelu i trudno uznać ją za „domyślną” (w Gemini nie ma trybu Auto – wariant modelu trzeba wskazać samodzielnie spośród opcji „Szybki”, „Myślący” i „Pro”). Jednocześnie założeniem moim było testowanie jak najnowszych modeli. Wobec rozbieżności tych dwóch założeń zdecydowałem się na najnowszy wariant, mimo że w ten sposób już na starcie Gemini miał pewną przewagę.

Po zapoznaniu się ze wstępnymi wynikami badań nadesłanymi przez uczestników zdecydowałem się przeprowadzić dodatkowe testy zaawansowanych wariantów modeli (wybranych „ręcznie”). Bazując wyłącznie na własnej ocenie, chciałem porównać Gemini Pro z GPT-5.2 Thinking (włączone rozszerzone rozumowanie) oraz Claude Opus 4.6. Celem była prosta weryfikacja, czy gdy zestawimy te zaawansowane modele, to w dalszym ciągu Gemini 3.1 będzie dominować. Wartość takiej oceny jest naturalnie niższa niż średniej z ocen 11 osób, jednak może rzucać pewne dodatkowe światło na różnice między modelami.

Modele miały reprezentować trzy regiony geograficzne: Stany Zjednoczone, Chiny i Europę. Miały być to rozwiązania zarówno komercyjne, jak i otwarte (nie chcę tu nadużywać słowa open-source – odsyłam do osobnego artykułu). Jeśli chodzi o platformy komercyjne, celowałem w plany płatne, które kosztowały w okolicach 20-30$ miesięcznie.

Przed rozpoczęciem badań dokonałem losowania modeli. Kolejność była odzwierciedlona w pliku przesyłanym do oceny (naturalnie nazwy modeli były zanonimizowane). Modele Qwen i Llama w losowaniu uzyskały odpowiednio miejsca pierwsze i ostatnie – to o tyle ważne, że istnieje pewne prawdopodobieństwo wystąpienia efektów pierwszeństwa i świeżości. Proces oceny, zakładający m.in. ten sam mechanizm, co w skokach narciarskich, miał ograniczać ryzyko deformacji wyników (z obliczania średniej usuwałem po jednej skrajnej ocenie – najniższą i najwyższą).

Odpowiedzi modeli na potrzeby zasadniczych badań zostały zebrane 24 lutego 2026 roku.

Lista chatbotów i modeli wykorzystanych w trakcie badań prezentuje się następująco:

Tabela – lista modeli/narzędzi branych pod uwagę w badaniu:

Nazwa modeluAdres URLPłatna wersjaUwagi
GPT-5.2 (Auto)chatgpt.comTak (Business)
M365 Copilotm365.cloud.microsoftTak (Business)
Gemini 3.1 Progemini.google.comTak (AI Pro)
Claude 4.6 Sonnetclaude.aiTak (Pro)Włączone „Extended Thinking”
Grok 4.2 (beta)grok.comTak (SuperGrok)
Llama 4 (Meta AI)www.meta.aiNieWłączone „Myślenie”
Mistral 3 (Le Chat)chat.mistral.aiTak (Pro)
Bielik 3.0chat.bielik.aiNie
PLLuM 8x7B-2025pllum.clarin-pl.eu/pllum_8x7bNie
EuroLLM 22Bhuggingface.co/chat/Nie
DeepSeek-V3.2chat.deepseek.comNie
Qwen 3.5 Plus (Auto)chat.qwen.aiNieKonieczne użycie innej przeglądarki (Edge zamiast Vivaldi)

Tabela – modele uczestniczące w dodatkowym porównaniu modeli zaawansowanych:

Nazwa modeluAdres URLPłatna wersjaUwagi
GPT-5.2 (Thinking)chatgpt.comTak (Business)Włączone „Extended Thinking”
GPT-5.4 (Thinking)chatgpt.comTak (Business)Włączone „Extended Thinking”
Gemini 3.1 Progemini.google.comTak (AI Pro)
Claude Opus 4.6claude.aiTak (Pro)Włączone „Extended Thinking”
Grok 4.2 beta Expertgrok.comTak (SuperGrok)

Uczestnicy i proces oceny

W ocenie modeli językowych brało udział 10 ochotników oraz ja. Starałem się kierować zaproszenia w taki sposób, aby osoby uczestniczące w ocenie odpowiedzi modeli były możliwie różnorodne, w tym przede wszystkim reprezentowały różne zawody i różny poziom doświadczenia w pracy z modelami językowi. To miało zbliżyć wyniki do takich, które odpowiadają typowemu użytkownikowi czatbotów.

Każdy z uczestników otrzymał arkusz Excela, w którym znajdowało się 21 zakładek. Pierwsza zakładka podsumowywała oceny, a 20 pozostałych zawierało odpowiedzi modeli językowych dla danego promptu (sam prompt był także wklejony). Ponieważ w badaniu braliśmy pod uwagę oceny 12 modeli, do oceny przez uczestników było łącznie 240 odpowiedzi.

Zadaniem osób uczestniczących w badaniu było dokonanie oceny każdej z odpowiedzi w skali od 1 do 10. Aby nieco unormować proces oceny, uczestnicy otrzymali plik PDF, w którym przedstawione były prompty oraz kryteria oceny, którymi należało się sugerować. Odpowiedzi na niektóre prompty były łatwiejsze w weryfikacji, gdyż dotyczyły faktów. Inne wymagały subiektywnego podejścia, ponieważ dotyczyły na przykład poczucia humoru lub oceny perswazyjności treści.

Nazwy modeli zostały zanonimizowane – posługiwałem się nazwami typu „Model 1”, „Model 2”, „Model 3”. Kolejność modeli w arkuszu Excela wynikała z losowania.

Uczestnicy na dokonanie oceny mieli około 32 godzin. Odsyłali arkusz Excela, którego wyniki posłużyły do opracowania zbiorczych ocen.

W procesie wyliczania średnich zastosowałem mechanizm znany ze skoków, tzn. odrzucałem po jednej skrajnej ocenie i średnią wyliczałem na bazie dziewięciu not (metoda ta zmniejsza prawdopodobieństwo ludzkich błędów). Naturalnie jeśli któraś ze skrajnych ocen występowała więcej niż raz, pozostałe były uwzględniane w obliczaniu średniej.

Na wykresach prezentujących wyniki poszczególnych testów pozostawiłem zakres ocen, jaki wskazywali uczestnicy (po wspomnianym odjęciu skrajnych ocen). Dzięki temu widać, w przypadku których zadań noty były spójne, a gdzie rozrzut ocen był znaczny.

Bardzo istotne było dla mnie to, aby wyniki badań przedstawione zostały jak najszybciej – żeby opisywały stan obecny, a nie przeszłość. Założenie było takie, aby wnioski przedstawić za darmo, bez konieczności dokonywania rejestracji.

Kilka słów na koniec

Naturalnie wraz z rozwojem LLM wartość ocen będzie spadać, dlatego chciałbym w miarę możliwości odświeżać wyniki. Jeśli tylko skala działalności Oxido na to pozwoli, będziemy poszerzać zakres badań – te bieżące dla małej firmy, jaką jest Oxido, były dużym wyzwaniem. Myślę m.in. o dedykowanej aplikacji, która poszerzyłaby możliwości oceny.

Badania były finansowane wyłącznie przeze mnie i przez moją firmę. Mają charakter całkowicie niezależny.

Uczelnie wyższe (zarówno pracownicy dydaktyczni, jak i studenci) mogą zwrócić się do mnie mailowo z prośbą o przesłanie dokładnych promptów, kryteriów oceny i innych materiałów związanych z badaniami, aby odtworzyć proces i porównać wyniki. Naturalnie w tym przypadku udostępnię je za darmo. Ważne jest dla mnie, aby zapytanie było wysłane z e-maila w domenie uczelni.

Wyrażam zgodę na cytowanie wyników badań i publikację powstałego rankingu modeli językowych.

Podziękowania

W te badania było zaangażowanych dużo osób. Dziękuję Krzyśkowi, który pomagał mi w opracowaniu założeń i opracował kilka tekstów towarzyszących raportowi z badań. Dziękuję osobom uczestniczącym w procesie oceny (kolejność alfabetyczna): Eli, Jackowi, Kasi, Krzyśkowi, Marcie, Radkowi, Sławkowi, Szymonowi, Szymonowi i Wojtkowi. Dziękuję całemu Zespołowi Oxido, w tym Michałowi, który zadbał, by strona na czas znalazła się na serwerze dedykowanym, by wszystko działało szybko. Dziękuję m.in. Agnieszce za korektę tekstu.

Dziękuję też najbliższym za cierpliwość – ostatnie dni to praca literalnie dzień w dzień po naprawdę wiele godzin, duże zmęczenie i duża… markotność (imię zobowiązuje? ;)).

Z góry dziękuję też wszystkim, którzy zdecydują się na wrzucenie linka do wyników tych badań. Myślę, że stanowią one ciekawe uzupełnienie różnego rodzaju testów, jakie można spotkać w internecie.

Dziękuję!

Zapraszam do rejestracji na mój newsletter dot. AI i zarządzania. Dzięki temu nie ominie Cię żaden artykuł.  Zapisz się