Pojawia się właśnie odświeżona odsłona ChatGPT Images, oparta na nowym, flagowym modelu generowania grafiki. Narzędzie pozwala tworzyć wysokiej jakości obrazy zarówno od podstaw, jak i na bazie już istniejących fotografii. Zastosowany model umożliwia bardzo dokładne modyfikacje, pilnując detali takich jak wygląd postaci, a przy tym działa nawet czterokrotnie szybciej niż wcześniej.
Równolegle uruchomiono nowy tryb pracy z obrazami w ChatGPT, którego celem jest uczynienie procesu tworzenia bardziej intuicyjnym, inspirującym i nastawionym na kreatywność. Nowy silnik graficzny oraz towarzyszące mu funkcje są od dziś dostępne dla wszystkich użytkowników ChatGPT, a w interfejsie programistycznym funkcjonują jako GPT-image-1.5.
Dokładne modyfikacje bez utraty kluczowych elementów
W sytuacji, gdy użytkownik zleca edycję przesłanego obrazu, model potrafi znacznie wierniej odwzorować intencje polecenia, ingerując wyłącznie w wskazane fragmenty. Jednocześnie zachowana zostaje ciągłość takich elementów jak światło, układ kadru czy wygląd osób, zarówno pomiędzy wejściem a wynikiem, jak i w kolejnych iteracjach zmian.

Efektem są rezultaty bliższe oczekiwaniom: bardziej praktyczne narzędzia do edycji zdjęć, realistyczne wizualizacje ubrań i fryzur oraz filtry stylistyczne i transformacje koncepcyjne, które nie gubią charakteru oryginału. Zestaw tych możliwości sprawia, że ChatGPT zaczyna pełnić rolę osobistego studia kreatywnego, przydatnego zarówno do codziennych poprawek grafik, jak i do bardziej swobodnych, artystycznych interpretacji.
Edycja obrazów
Nowy model skutecznie obsługuje szeroki zakres operacji edycyjnych. Dodawanie i usuwanie elementów, łączenie warstw, mieszanie treści czy ich przestawianie odbywa się w sposób, który pozwala osiągnąć zamierzony efekt bez pozbawiania obrazu jego unikalnego charakteru.
Potencjał twórczy modelu widać szczególnie w przekształceniach, które pozwalają modyfikować i dodawać elementy, takie jak napisy czy układy graficzne. Dzięki temu pomysły zyskują nową energię bez utraty kluczowych detali. Mechanizmy te sprawdzają się zarówno przy prostych wizjach, jak i przy bardziej rozbudowanych koncepcjach. Ich działanie można łatwo sprawdzić, korzystając z gotowych stylów oraz propozycji dostępnych w nowej przestrzeni ChatGPT Images, bez konieczności wpisywania własnych poleceń.
Realizacja poleceń
W porównaniu z pierwszą odsłoną narzędzia, model znacznie lepiej interpretuje instrukcje użytkownika. Przekłada się to na większą dokładność modyfikacji oraz możliwość tworzenia złożonych kompozycji, w których zależności między poszczególnymi elementami są zachowane zgodnie z założeniami.
Ulepszony mechanizm radzi sobie także z obróbką treści tekstowych. Liternictwo jest odwzorowywane dokładniej, również w przypadku drobnych, gęsto rozmieszczonych krojów pisma.
Poprawki objęły również inne obszary działania modelu. Widoczna jest na przykład większa precyzja w renderowaniu wielu niewielkich twarzy jednocześnie oraz bardziej naturalny wygląd generowanych obrazów.
Nowa przestrzeń kreatywna
Poza klasycznym generowaniem grafik na podstawie opisu, w ChatGPT udostępniono osobną sekcję poświęconą obrazom. Jest ona dostępna w bocznym menu zarówno w wersji mobilnej, jak i przeglądarkowej. Ułatwia szybkie odkrywanie oraz testowanie grafik, a także oferuje dziesiątki gotowych filtrów i inspirujących ustawień, które są regularnie aktualizowane zgodnie z bieżącymi trendami.
Wprowadzone zmiany sprawiają, że tworzone obrazy w większym stopniu odpowiadają zamysłom użytkowników na każdym etapie pracy.
ChatGPT Images w środowisku pracy
Nowy model wspiera firmowe procesy dzięki szybszemu generowaniu grafik, dokładniejszym edycjom oraz zachowaniu spójnych detali wizualnych w kolejnych wersjach. Zespoły mogą łatwiej testować pomysły, wprowadzać poprawki i wizualizować złożone projekty przeznaczone do marketingu, projektowania, handlu internetowego czy komunikacji wewnętrznej.
Ponowne testy przykładów z wcześniejszej wersji pokazały wyraźną poprawę rezultatów w aktualnym wydaniu. Mimo tego generowane obrazy nadal nie są idealne. Postęp jest zauważalny, lecz kolejne iteracje wciąż będą wymagały dalszych udoskonaleń.
GPT Image 1.5 w API
Model GPT Image 1.5 udostępniony w interfejsie programistycznym oferuje te same usprawnienia co ChatGPT Images. W porównaniu z GPT Image 1 lepiej zachowuje spójność elementów i umożliwia dokładniejsze edycje.
Podczas modyfikacji użytkownicy dostrzegą stabilniejsze odwzorowanie logotypów marek oraz kluczowych elementów wizualnych. Dzięki temu rozwiązanie dobrze sprawdza się w działaniach marketingowych i zadaniach związanych z identyfikacją wizualną. Mowa o zadaniach takich jak projektowanie grafik czy logo. Jest również przydatne dla zespołów e-commerce, które mogą tworzyć kompletne katalogi zdjęć produktów. W tym obejmujące różne warianty, sceny i perspektywy, bazując na jednym obrazie źródłowym.
Koszt obsługi danych wejściowych i wyjściowych w GPT Image 1.5 jest o dwadzieścia procent niższy niż w GPT Image 1. Pozwala na generowanie i edytowanie większej liczby obrazów w ramach tego samego budżetu.
Nową wersję modelu można testować w środowisku OpenAI Playground lub czerpać inspiracje z przewodników po poleceniach. Z GPT Image 1.5 korzystają już firmy oraz młode spółki z obszarów kreatywnych, handlu internetowego, programowania i marketingu.
Więcej przykładów nowego modelu można znaleźć na oficjalnej stronie.
Materiał powstał we współpracy z AI: