Oficjalne ogłoszenie nastąpiło w momencie pojawienia się ChatGPT Translate. TranslateGemma bazuje na architekturze Gemma 3 i występuje w trzech wariantach. Modele liczą 4 miliardy, 12 miliardów oraz 27 miliardów parametrów, przy czym wszystkie obsługują 55 języków.

Google wskazuje, że decydujące znaczenie miał wyspecjalizowany trening. Dzięki niemu model TranslateGemma 12B osiągnął wynik 3,60 w benchmarku MetricX. Tymczasem bazowy Gemma 3 27B uzyskał rezultat 4,04. Testy oparto na zbiorze danych WMT24++, a niższy wynik MetricX oznacza mniejszą liczbę błędów tłumaczeniowych.

Różnica staje się jeszcze wyraźniejsza, gdy porówna się modele o tej samej wielkości. Standardowy Gemma 3 12B uzyskał wynik 4,86, natomiast TranslateGemma 12B obniżył wskaźnik błędów o około dwadzieścia sześć procent. Co więcej, najmniejszy wariant 4B dorównuje jakością większym modelom bazowym 12B, dlatego nadaje się do urządzeń mobilnych oraz brzegowych.

„Możesz osiągnąć wysoką jakość tłumaczenia przy użyciu mniej niż połowy parametrów modelu bazowego”

– poinformował Google w swoim oświadczeniu.

Tak dobre wyniki nie są przypadkowe, ponieważ Google zastosowało dwuetapowy proces uczenia. Najpierw firma przeprowadziła nadzorowane dostrajanie. W tym celu wykorzystała zbiór danych, który łączył tłumaczenia wykonane przez ludzi z przekładami syntetycznymi generowanymi przez modele Gemini.

Następnie zastosowano uczenie ze wzmocnieniem, a cały proces wspierał zestaw modeli nagradzających. Wśród nich znalazły się MetricX-QE oraz AutoMQM. Dzięki temu system kierował się w stronę tłumaczeń, które brzmią naturalnie i lepiej pasują do kontekstu.

Szczególnie duże postępy odnotowały języki o ograniczonych zasobach. W przypadku pary angielski–islandzki wskaźnik błędów spadł o ponad trzydzieści procent, natomiast dla pary angielski–suahili poprawa sięgnęła około dwudziestu pięciu procent. Co prawda Google wytrenował modele także na blisko pięciuset dodatkowych parach językowych, jednak pełne metryki dla tego zestawu nie zostały jeszcze potwierdzone.

Każdy wariant TranslateGemma odpowiada innemu środowisku pracy. Model 4B sprawdzi się na smartfonach oraz urządzeniach brzegowych, ponieważ wymaga mniejszych zasobów. Z kolei wersja 12B może działać na zwykłych laptopach, a największy model 27B zaprojektowano do wdrożeń chmurowych na pojedynczym GPU H100 lub TPU.

Jednocześnie TranslateGemma zachowuje multimodalne możliwości znane z Gemma 3. Modele osiągnęły lepsze wyniki w benchmarku Vistra, który dotyczy tłumaczenia tekstu zawartego w obrazach. Co ważne, stało się to nawet bez dodatkowego dostrajania multimodalnego. Pakiet jest dostępny w serwisach Kaggle oraz Hugging Face, a Google oferuje także wdrożenia poprzez Vertex AI.

Premiera TranslateGemma wpisuje się w coraz ostrzejszą rywalizację w obszarze tłumaczeń opartych na sztucznej inteligencji. OpenAI uruchomiło tego samego dnia ChatGPT Translate, który obsługuje ponad pięćdziesiąt języków. Z kolei SeamlessM4T firmy Meta pozostaje silnym graczem open source, ponieważ wspiera nawet sto języków i umożliwia tłumaczenie mowy na mowę. W tym kontekście Google rozwija TranslateGemma jako część szerszego ekosystemu Gemma, obok projektów takich jak MedGemma do obrazowania medycznego oraz Gemma 3n przeznaczona dla urządzeń mobilnych.

Materiał powstał we współpracy z AI: