Podstawę oferty przedsiębiorstwa stanowi linia modeli ChatGLM. Zostały one zaprojektowane jako odpowiednik zachodnich systemów typu GPT, przy jednoczesnym uwzględnieniu lokalnych regulacji oraz specyfiki chińskiego rynku. Modele te znajdują zastosowanie w chatbotach, analizie tekstu, generowaniu treści, narzędziach wspierających programistów, a także w rozwiązaniach korporacyjnych i administracyjnych.

Oficjalna prezentacja modelu GLM-4.7 wywołała jednak szczególne poruszenie. To otwarty model językowy, który w testach związanych z programowaniem potrafi wyprzedzać nawet ChatGPT-5. Granica oddzielająca kosztowne, zamknięte platformy od powszechnie dostępnych modeli o otwartych wagach zaczyna się wyraźnie zacierać. Jednocześnie developerzy zyskują dostęp do narzędzi o dotąd niespotykanej precyzji.

Rezultaty najnowszych benchmarków nie pozostawiają większych wątpliwości. GLM-4.7 w wielu obszarach inżynierskich nie tylko dorównuje rywalom, lecz także ich przewyższa. W testach SWE-bench, polegających na rozwiązywaniu rzeczywistych problemów w repozytoriach GitHub, a także w HumanEval, model ten demonstruje zdolność do samodzielnego rozumowania oraz poprawiania własnych pomyłek. Do niedawna były to cechy zarezerwowane wyłącznie dla najbardziej zaawansowanych systemów rozwijanych przez OpenAI czy Anthropic.

Na tle konkurencji wyróżniają go między innymi koncepcja określana jako „Vibe Coding” oraz rozbudowane funkcje agentowe. GLM-4.7 zaprojektowano w taki sposób, aby analizował problem przed podjęciem działania, co określane jest mianem Interleaved Thinking. Dzięki temu kod jest oceniany głębiej jeszcze przed wygenerowaniem odpowiedzi, co znacząco ogranicza liczbę błędów logicznych. Dla programistów oznacza to krótszy czas poświęcany na debugowanie i większą przestrzeń na twórczą pracę.

Starcie modeli open-weights z zamkniętymi ekosystemami nabiera tempa. Przy bezpośrednim porównaniu z przewidywanymi możliwościami ChatGPT-5 chińska propozycja wypada korzystniej pod względem relacji jakości do kosztów obliczeniowych. W zadaniach wymagających bardzo długiego kontekstu, takich jak refaktoryzacja całych modułów aplikacji, GLM-4.7 utrzymuje spójność logiczną tam, gdzie inne systemy zaczynają generować niespójne odpowiedzi.

Mimo otwartości wag nie jest to jednak model przeznaczony do uruchamiania na przeciętnym laptopie czy nawet wydajnym komputerze gamingowym. GLM-4.7 to rozwiązanie o skali, którą można określić mianem cyfrowego kolosa.

Flagowy wariant dysponuje ponad stu miliardami parametrów, szacunkowo od stu dziesięciu do stu trzydziestu miliardów w zależności od wersji. Stawia to go w tej samej kategorii wagowej co największe modele, takie jak Llama-3 siedemdziesiąt miliardów czy GPT-4. Konsekwencje infrastrukturalne są znaczące.

Największym ograniczeniem pozostaje pamięć VRAM. Załadowanie modelu w pełnej precyzji FP16 wymaga ponad dwustu gigabajtów pamięci wideo. Nawet po zastosowaniu zaawansowanej kwantyzacji czterobitowej zapotrzebowanie nadal oscyluje wokół siedemdziesięciu do osiemdziesięciu gigabajtów VRAM. Wyklucza przy tym użycie pojedynczych kart konsumenckich, takich jak RTX 4090. W praktyce niezbędne stają się klastry obliczeniowe złożone z co najmniej dwóch lub czterech kart NVIDIA A100 osiemdziesiąt gigabajtów albo H100. Standardowe serwery VPS czy niewielkie instancje chmurowe z jedną kartą graficzną nie są w stanie obsłużyć takiego obciążenia. Dlaczego? Ponieważ model ten został zaprojektowany z myślą o centrach danych oraz dużych zespołach badawczo-rozwojowych.

Choć licencyjnie GLM-4.7 jest dostępny bezpłatnie, koszty jego utrzymania oraz inferencji pozostają wysokie. Taka jest jednak cena inteligencji porównywalnej z ChatGPT-5. Ogromna wiedza idzie tu w parze z masą danych, które muszą zostać przetworzone przez odpowiednio potężny sprzęt.

Model wnosi kilka cech, które pozwalają mu znaleźć się w ścisłej czołówce. Jednym z nich jest lepsze podejście do interfejsu i estetyki kodu. Generowane rozwiązania front-endowe w HTML oraz CSS są czystsze i bardziej czytelne. A ten element bywa słabym punktem modeli skoncentrowanych głównie na backendzie. Istotna jest także optymalizacja pod kątem integracji z popularnymi środowiskami agentowymi, takimi jak Cline czy Claude Code. Umożliwia ona automatyzację złożonych operacji wykonywanych w terminalu. W porównaniu z największymi modelami Google czy OpenAI, GLM-4.7 pozostaje również bardziej osiągalny dla mniejszych zespołów badawczych.

Wielu programistów zwraca uwagę, że kod generowany przez sztuczną inteligencję bywa poprawny technicznie, lecz trudny w odbiorze. GLM-4.7 zdaje się lepiej rozumieć konwencje oraz dobre praktyki. Dzięki czemu praca z nim przypomina współpracę z doświadczonym partnerem przy wspólnym pisaniu kodu, a nie mozolną korektę maszynowych propozycji.

Debiut GLM-4.7 stanowi wyraźny sygnał, że dominacja Doliny Krzemowej w obszarze sztucznej inteligencji nie jest absolutna. Zhipu AI pokazuje, że innowacje mogą powstawać w różnych częściach świata, a największymi beneficjentami tej rywalizacji są użytkownicy końcowi. Odpowiedź ze strony ChatGPT-5 wydaje się tylko kwestią czasu, jednak poprzeczka została zawieszona bardzo wysoko.

Dla osób pracujących z technologią przekaz jest jednoznaczny. Rozwiązania open source przestały być postrzegane jako tańsza alternatywa. I coraz częściej okazują się pełnoprawnym, a nierzadko lepszym wyborem dla profesjonalistów. Jak podkreślają analitycy:

„GLM-4.7 nie próbuje być wszystkim. Jest precyzyjnym narzędziem inżynierskim, które rozumie intencje programisty lepiej niż jakikolwiek dotychczasowy model.”

Więcej na temat becnhmarków można znaleźć na tej stronie. Sam model jest do pobrania z serwisu HuggingFace.

Materiał powstał we współpracy z AI: