Firma xAI należąca do Elona Muska oficjalnie udostępniła Grok Imagine 1.0. Spółka określa tę wersję jako największy dotąd postęp w generowaniu wideo i dźwięku z użyciem sztucznej inteligencji
Nowe narzędzie pozwala tworzyć dziesięciosekundowe klipy wideo w rozdzielczości 720 pikseli. Co istotne, materiały zawierają zsynchronizowany dźwięk, w tym głosy postaci, muzykę w tle oraz efekty akustyczne budujące atmosferę.
Elon Musk potwierdził szeroką dostępność nowej wersji za pośrednictwem platformy X. Jednocześnie xAI podało, że w ciągu ostatnich 30 dni użytkownicy wygenerowali łącznie 1,245 miliarda filmów. W rezultacie narzędzie ma bezpośrednio konkurować z Veo od Google oraz Sorą od OpenAI.
Nowe możliwości generowania obrazu i dźwięku
Aktualizacja wprowadza kilka istotnych zmian względem wcześniejszych wersji. Przede wszystkim wydłużono maksymalny czas trwania wideo oraz podniesiono jakość obrazu. Ponadto Grok Imagine 1.0 oferuje funkcję określaną jako „natywny dźwięk”.
System generuje ekspresyjne głosy postaci z dokładną synchronizacją ruchu warg. Dodatkowo tworzy ścieżki muzyczne dopasowane do scen wizualnych. Użytkownicy otrzymują także atmosferyczne efekty dźwiękowe, takie jak metaliczne brzęki czy szelest liści.
Lepsze podążanie za poleceniami użytkownika
Model został również usprawniony pod względem interpretowania instrukcji. Dzięki temu lepiej reaguje na złożone polecenia kinematograficzne. Dotyczy to między innymi ruchów kamery, zbliżeń oraz zmian oświetlenia.
Co ważne, użytkownicy mogą dopracowywać sceny za pomocą poleceń uzupełniających. Nie ma więc potrzeby ponownego generowania całego filmu. Towarzyszące API Grok Imagine obsługuje zarówno konwersję tekstu na wideo, jak i obrazu na wideo. Dodatkowo umożliwia transformacje scen oraz animację postaci w jednym procesie twórczym.
Premiera w cieniu kontrowersji
Debiut Grok Imagine 1.0 odbywa się w czasie narastających wątpliwości dotyczących moderacji treści. Wspólne śledztwo New York Times oraz Center for Countering Digital Hate wykazało, że Grok wygenerował około 1,8 miliona zseksualizowanych obrazów kobiet. Stało się to w okresie dziewięciu dni, od końca grudnia do początku stycznia. Część treści miała rzekomo przedstawiać osoby nieletnie.
W konsekwencji sprawą zainteresowały się organy regulacyjne w kilku krajach. Działania podjęto między innymi w Indiach, Malezji oraz Indonezji. Według Economic Times, raport Washington Post wskazywał, że przez większą część 2025 roku zespół ds. bezpieczeństwa sztucznej inteligencji w xAI liczył nie więcej niż trzy osoby. Z kolei dane Similarweb pokazują, że około siedemdziesięciu procent użytkowników Groka stanowią mężczyźni. Dla porównania, konkurencyjne platformy, takie jak ChatGPT oraz Google Gemini, mają bardziej zrównoważoną strukturę demograficzną.
Technologiczne fundamenty Grok Imagine
Podstawy technologiczne Grok Imagine 1.0 sięgają przejęcia startupu Hotshot z San Francisco. Firma ta specjalizowała się w generowaniu wideo z wykorzystaniem sztucznej inteligencji. Akwizycja została sfinalizowana w marcu 2025 roku.
Hotshot rozwijał wcześniej modele bazowe wideo, w tym Hotshot-XL oraz Hotshot Act One. Po przejęciu rozwiązania te zostały zintegrowane z infrastrukturą xAI działającą w klastrze Colossus. Niezależne testy porównawcze przeprowadzone przez Artificial Analysis plasują obecnie API Grok Imagine wśród czołowych narzędzi na rynku. Analitycy zwracają uwagę na niskie opóźnienia oraz wysoką jakość synchronizacji dźwięku z obrazem. Narzędzie jest dostępne pod tym adresem.
Materiał powstał we współpracy z AI:
