
Nowa wersja Stable Diffusion od Stability AI
Stability AI, czołowa firma w dziedzinie sztucznej inteligencji, zaprezentowała najnowszą wersję swojego open-source’owego generatora obrazów, Stable Diffusion 3 (SD3). Ten model jest najpotężniejszym, dostępnym publicznie narzędziem do generowania obrazów na podstawie tekstu.
Dostępność i licencjonowanie
SD3 jest udostępniany na bezpłatnej licencji niekomercyjnej i dostępny za pośrednictwem platformy Hugging Face. Można go również znaleźć w API Stability AI oraz aplikacjach, takich jak Stable Assistant i Stable Artisan. Użytkownicy komercyjni powinni skontaktować się z Stability AI w celu uzyskania szczegółowych informacji licencyjnych.
Zaawansowanie technologiczne modelu SD3
Według Stability AI, SD3 Medium jest najbardziej zaawansowanym modelem tekst-do-obrazu, składającym się z dwóch miliardów parametrów. Jego kompaktowy rozmiar umożliwia uruchamianie na komputerach osobistych oraz laptopach, jak również na serwerowych GPU klasy korporacyjnej, co czyni go idealnym kandydatem na nowy standard w tej dziedzinie.
Fotorealizm i precyzja generowania
Model oferuje wyjątkowy fotorealizm, precyzyjne odwzorowanie poleceń, typografię, efektywność zasobów i zdolności do precyzyjnego dostrajania. Usuwa typowe artefakty w rękach i twarzach, dostarczając wysokiej jakości obrazy bez potrzeby skomplikowanych procedur. Potrafi zrozumieć złożone polecenia, obejmujące relacje przestrzenne, elementy kompozycyjne, działania i style. Dzięki architekturze Diffusion Transformer, SD3 skutecznie generuje tekst bez błędów ortograficznych i artefaktów.
Premiera i współpraca z Nvidia
Model został po raz pierwszy zaprezentowany w lutym 2024 roku, a od kwietnia 2024 roku jest dostępny poprzez API. Stability AI współpracuje z firmą Nvidia, aby zoptymalizować wydajność wszystkich modeli Stable Diffusion, co przynosi do 50% wzrost wydajności dzięki optymalizacjom TensorRT. Wewnętrzne i zewnętrzne testy oraz liczne zabezpieczenia mają na celu zapobieganie niewłaściwemu wykorzystaniu SD3 Medium.
Wymagania sprzętowe i kodowanie
Aby uruchomić model, potrzebne jest od 5 GB do 16 GB VRAM GPU, w zależności od specyficznej wersji i rozmiaru modelu. SD3 wykorzystuje nową technologię kodowania, co pozwala na lepsze generowanie obrazów i zrozumienie tekstowych poleceń. Model może również generować tekst, ale wymaga to dużej mocy obliczeniowej.
Zalecenia dotyczące VRAM i modułowość
Stability AI zaleca 16 GB VRAM GPU dla SD3 Medium (2 miliardy parametrów) dla wyższej prędkości, jednak użytkownicy z niższym VRAM mogą uruchomić model przy minimalnych wymaganiach 5 GB VRAM GPU. Struktura modułowa modelu pozwala na pracę z różnymi enkoderami tekstu, co umożliwia elastyczne zarządzanie zasobami.
Plany rozwoju Stability AI
Stability AI kontynuuje rozwój modeli multimedialnych, w tym dla wideo, dźwięku i tekstu. Planuje także dalsze ulepszanie SD3 Medium na podstawie opinii użytkowników. „Naszym celem jest ustanowienie nowego standardu kreatywności w sztuce generowanej przez AI i uczynienie Stable Diffusion 3 Medium nieodzownym narzędziem dla profesjonalistów i hobbystów” – podsumowała firma Stability AI.