Nowa wersja Stable Diffusion od Stability AI

Stability AI, czołowa firma w dziedzinie sztucznej inteligencji, zaprezentowała najnowszą wersję swojego open-source’owego generatora obrazów, Stable Diffusion 3 (SD3). Ten model jest najpotężniejszym, dostępnym publicznie narzędziem do generowania obrazów na podstawie tekstu.

Dostępność i licencjonowanie

SD3 jest udostępniany na bezpłatnej licencji niekomercyjnej i dostępny za pośrednictwem platformy Hugging Face. Można go również znaleźć w API Stability AI oraz aplikacjach, takich jak Stable Assistant i Stable Artisan. Użytkownicy komercyjni powinni skontaktować się z Stability AI w celu uzyskania szczegółowych informacji licencyjnych.

Zaawansowanie technologiczne modelu SD3

Według Stability AI, SD3 Medium jest najbardziej zaawansowanym modelem tekst-do-obrazu, składającym się z dwóch miliardów parametrów. Jego kompaktowy rozmiar umożliwia uruchamianie na komputerach osobistych oraz laptopach, jak również na serwerowych GPU klasy korporacyjnej, co czyni go idealnym kandydatem na nowy standard w tej dziedzinie.

Fotorealizm i precyzja generowania

Model oferuje wyjątkowy fotorealizm, precyzyjne odwzorowanie poleceń, typografię, efektywność zasobów i zdolności do precyzyjnego dostrajania. Usuwa typowe artefakty w rękach i twarzach, dostarczając wysokiej jakości obrazy bez potrzeby skomplikowanych procedur. Potrafi zrozumieć złożone polecenia, obejmujące relacje przestrzenne, elementy kompozycyjne, działania i style. Dzięki architekturze Diffusion Transformer, SD3 skutecznie generuje tekst bez błędów ortograficznych i artefaktów.

Premiera i współpraca z Nvidia

Model został po raz pierwszy zaprezentowany w lutym 2024 roku, a od kwietnia 2024 roku jest dostępny poprzez API. Stability AI współpracuje z firmą Nvidia, aby zoptymalizować wydajność wszystkich modeli Stable Diffusion, co przynosi do 50% wzrost wydajności dzięki optymalizacjom TensorRT. Wewnętrzne i zewnętrzne testy oraz liczne zabezpieczenia mają na celu zapobieganie niewłaściwemu wykorzystaniu SD3 Medium.

Wymagania sprzętowe i kodowanie

Aby uruchomić model, potrzebne jest od 5 GB do 16 GB VRAM GPU, w zależności od specyficznej wersji i rozmiaru modelu. SD3 wykorzystuje nową technologię kodowania, co pozwala na lepsze generowanie obrazów i zrozumienie tekstowych poleceń. Model może również generować tekst, ale wymaga to dużej mocy obliczeniowej.

Zalecenia dotyczące VRAM i modułowość

Stability AI zaleca 16 GB VRAM GPU dla SD3 Medium (2 miliardy parametrów) dla wyższej prędkości, jednak użytkownicy z niższym VRAM mogą uruchomić model przy minimalnych wymaganiach 5 GB VRAM GPU. Struktura modułowa modelu pozwala na pracę z różnymi enkoderami tekstu, co umożliwia elastyczne zarządzanie zasobami.

Plany rozwoju Stability AI

Stability AI kontynuuje rozwój modeli multimedialnych, w tym dla wideo, dźwięku i tekstu. Planuje także dalsze ulepszanie SD3 Medium na podstawie opinii użytkowników. „Naszym celem jest ustanowienie nowego standardu kreatywności w sztuce generowanej przez AI i uczynienie Stable Diffusion 3 Medium nieodzownym narzędziem dla profesjonalistów i hobbystów” – podsumowała firma Stability AI.

Tags:ai, generowanie obrazów, stable diffusion, stableai, sztuczna inteligencja

NLEP czyli nowa metoda rozumowania AI

Wirtualny szczur z mózgiem AI

Najnowsza generacja obrazów Stable Diffusion 3 od Stability AI