Nowy model generowania obrazów od Google
Google udostępnił bezpłatnie najnowszy model przetwarzania tekstu na obraz, Imagen 3, który zdobył uznanie dzięki swojej wysokiej jakości generowanych grafik. Wcześniej dostępny tylko dla użytkowników płatnych wersji Gemini Advanced i Gemini Workspace, teraz jest dostępny dla wszystkich użytkowników czatbota Gemini, co otwiera nowe możliwości dla szerokiej grupy odbiorców.
Ulepszenia w modelu Imagen 3
Imagen 3, będący następcą modelu Imagen 2, zyskał lepsze możliwości generowania szczegółowych i realistycznych obrazów. Twórcy podkreślają, że obrazy tworzone przez ten model są na wyższym poziomie fotorealizmu i precyzyjniej odwzorowują instrukcje użytkownika. Dodatkowo model lepiej radzi sobie z generowaniem tekstu na obrazach, co może być przydatne w przypadku grafik takich jak kartki urodzinowe czy bannery.
Większa rozdzielczość generowanych obrazów
Jednym z najważniejszych atutów Imagen 3 jest możliwość generowania grafik w rozdzielczości 2048×2048 pikseli, co przewyższa możliwości wielu innych modeli, które ograniczają się do 1024×1024 pikseli. To duży krok naprzód w kontekście jakości obrazu, jednak istnieje pewne ograniczenie – model generuje tylko jeden obraz na jedno polecenie. Inne popularne narzędzia, jak DALL-E 3 czy Midjourney, oferują po kilka wariantów na jedno polecenie, co pozwala na większy wybór dla użytkownika.
Wsparcie dla różnych języków
Nowością w Imagen 3 jest także wsparcie dla promptów w różnych językach, w tym w języku polskim. Początkowo narzędzie to obsługiwało jedynie polecenia w języku angielskim, co mogło być barierą dla wielu użytkowników. Teraz, dzięki rozszerzeniu obsługi językowej, użytkownicy z różnych krajów mogą tworzyć obrazy przy użyciu swojego ojczystego języka, co znacząco zwiększa dostępność narzędzia.
Algorytmy generatywnej sztucznej inteligencji
Model ten, podobnie jak inne generatywne modele AI, opiera się na algorytmach, które przekształcają tekst w obrazy o określonych parametrach. W praktyce oznacza to, że wystarczy wpisać krótki opis, aby wygenerować obraz zgodny z opisem, co może być przydatne w różnych branżach, od marketingu po twórczość artystyczną.
Ograniczenia modelu Imagen 3
Chociaż Imagen 3 wyróżnia się na tle innych modeli dzięki większej rozdzielczości obrazów i wsparciu dla nowych języków, pewne ograniczenia, jak brak możliwości generowania kilku wersji obrazu z jednego promptu, mogą zniechęcić niektórych użytkowników, zwłaszcza tych, którzy cenią sobie elastyczność i różnorodność w wynikach.