


Zapraszam Was do zapoznania się z efektami miesięcy pracy mojej i Zespołu Oxido, których najważniejszą częścią jest raport z badań modeli językowych.
Odpowiedzi uzyskane w 12 narzędziach były oceniane przez łącznie 11 osób, dzięki czemu możemy spojrzeć na pracę LLM-ów z perspektywy typowego użytkownika, a nie tylko syntetycznych benchmarków (nie neguję ich znaczenia; po prostu przyjęliśmy inną metodologię). Ale to dopiero początek. To co wyróżnia moje badania to fakt, że bazowaliśmy w 100% na języku polskim – w naszym języku były prompty i w tym języku oczekiwaliśmy odpowiedzi.
Zapraszam też do lektury tekstów towarzyszących raportowi z badań, które mają dodać dodatkowy wymiar i lepiej pomóc w określeniu momentu w rozwoju AI, w którym obecnie jesteśmy.
Z wiedzy uzyskanej w trakcie badań będziemy czerpać m.in. w trakcie szkoleń z zakresu wykorzystania AI w pracy i biznesie, czy realizując projekty AI w ramach Oxido.

Raport opiera się na testach modeli językowych z poziomu oficjalnych chatbotów (wyjątkiem jest EuroLLM). Celem było sprawdzenie, jak poszczególne modele – dostępne za pośrednictwem wspomnianych interfejsów – radzą sobie z realizacją zadań otwartych. Zarówno podejście do sposobu testowania, jak i dobór zadań wynikają z prostego założenia: w ten sposób z AI korzysta typowy Kowalski. Z tego też powodu oceny dokonywali ludzie – 11 osób łącznie ze mną, przedstawiciele różnych zawodów. W obliczaniu średniej zastosowano mechanizm odrzucania po jednej skrajnej ocenie, znany ze skoków narciarskich, a uczestnicy dla ułatwienia mieli kryteria oceny i wzorcowe odpowiedzi na pytania stricte merytoryczne. Modele są różnej klasy.
Kilka najważniejszych dla mnie wniosków:
Z przymusu dodam, że 8 lutego poprosiłem przedstawicieli Bielika o wywiad i nie dostałem odpowiedzi; 24 lutego generowane były odpowiedzi do oceny, a raport został opublikowany 9 marca.
Zapraszam do uważnej lektury całości raportu oraz artykułów towarzyszących, do których linki są poniżej. Jeśli ktoś jest chętny, by wziąć udział w kolejnej edycji, o ile się odbędzie, wyślijcie maila przez formularz.
Data publikacji streszczenia: 19 marca 2026.
PS Co już pisałem w raporcie, mocno trzymam kciuki za modele europejskie, w tym naturalnie przede wszystkim za polskie 🙂

Modele językowe dobieramy do zadań, jakie mamy realizować, i warunków regulacyjnych, pod które podlegamy.
Raport jest odpowiedzią na pytania, które często otrzymuję na szkoleniach, w tym stricte w kontekście modeli językowych powstających w Polsce i Europie, na ile są one uniwersalne.
To, że coś nie jest uniwersalne, nie znaczy, że jest złe.

(w ocenie wszystkich uczestników)

(w ocenie wszystkich uczestników)

(na bazie moich ocen „w ciemno”)
Zachęcam, aby w oparciu o wyniki stworzyć własny ranking.
(na bazie zasadniczej fazy badań)

USA, Chiny i Europa i ich rywalizacja technologiczna i naukowa w obszarze sztucznej inteligencji.
Jaką rolę – zasób i ograniczenie – odgrywają pieniądze, energia i infrastruktura.

Tekst wkrótce – zachęcam do subskrypcji newslettera.
Kolejne ciekawe artykuły na temat dużych modeli językowych i nie tylko już wkrótce. Zapisz się na newsletterZapisz się na newsletter, aby niczego nie przegapić!
W praktyce o wartości modelu AI nie decydują tylko benchmarki, ale to, czy rozumie język, kulturę i realia pracy użytkownika, które mogą wyglądać inaczej w Polsce niż np. w USA. Dlatego tak ważne są badania oparte na rzeczywistych scenariuszach użycia. Pokazują, jak modele radzą sobie w codziennej pracy w określonym kontekście kulturowym i językowym, dostarczając bardziej praktycznej wiedzy niż same wyniki testów technicznych.
LLM-y mogą być bardzo pomocne w prawnym researchu – potrafią szybko zebrać argumenty, zweryfikować dokument czy pomóc uporządkować materiał. Nie są jednak wiarygodnym źródłem wiedzy prawniczej. Modele, zwłaszcza te otwarte, często halucynują, czyli potrafią wymyślać przepisy lub orzeczenia. Dlatego warto traktować je raczej jako niewykształconego asystenta prawnika, niż jego zastępstwo. Ponadto dostawcy nie zawsze gwarantują nabycie praw autorskich do wygenerowanych treści czy bezpieczeństwo poufnych informacji. Dlatego do wprowadzania i tworzenia wrażliwych danych w takich systemach należy podchodzić bardzo ostrożnie.
Kolejne ciekawe artykuły na temat dużych modeli językowych i nie tylko już wkrótce. Zapisz się na newsletterZapisz się na newsletter, aby niczego nie przegapić!
Zapraszam do rejestracji na mój newsletter dot. AI i zarządzania. Dzięki temu nie ominie Cię żaden artykuł. Zapisz się
