Free songs
header_good

Alchemist czyli nowy model dyfuzji w generowaniu obrazów

Model dyfuzji zmieniający właściwości materiałowe

Badacze z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) oraz Google Research stworzyli zaawansowany model dyfuzji, który potrafi zmieniać właściwości materiałowe obiektów na zdjęciach. System, nazwany Alchemist, umożliwia użytkownikom modyfikowanie czterech atrybutów zarówno na rzeczywistych, jak i generowanych przez sztuczną inteligencję obrazach: szorstkości, metaliczności, albedo (podstawowego koloru obiektu) oraz przezroczystości.


Technologia modelu Alchemist

Alchemist działa na bazie modelu dyfuzji denoising, wykorzystując Stable Diffusion 1.5, znany z fotorealistycznych rezultatów i zdolności do edycji obrazów. Model ten, w przeciwieństwie do wcześniejszych wersji, koncentruje się na niskopoziomowych atrybutach materiałowych, umożliwiając precyzyjne modyfikacje przy pomocy intuicyjnego interfejsu suwakowego.


Zastosowania modelu Alchemist

Możliwości Alchemist mogą znaleźć zastosowanie w różnych dziedzinach, takich jak gry wideo, efekty wizualne, projektowanie graficzne, a także w treningu robotów. Na przykład, edytowanie modeli w grach wideo może zostać znacznie przyspieszone dzięki możliwości precyzyjnego dostosowania tekstur. W efekcie graficy będą mogli szybciej dostosowywać wygląd obiektów do wymagań gry.


Poprawa danych treningowych i klasyfikacja obrazów

Model ten może również przyczynić się do poprawy danych treningowych dla robotów, umożliwiając im lepsze zrozumienie różnych tekstur, co jest kluczowe dla manipulacji obiektami w rzeczywistym świecie. Ponadto, Alchemist może pomóc w klasyfikacji obrazów, analizując, gdzie sieci neuronowe nie rozpoznają zmian materiałowych.


Przewaga nad innymi modelami dyfuzji

Alchemist wyróżnia się na tle innych modeli dyfuzji. Przeprowadzone testy wykazały, że model ten potrafi dokładnie edytować tylko wybrane obiekty na zdjęciach, pozostawiając tło nietknięte. W porównaniu do modelu InstructPix2Pix, Alchemist osiągnął wyższe wyniki dokładności i był preferowany przez użytkowników za swoje fotorealistyczne wyniki.


Ograniczenia modelu Alchemist

Mimo licznych zalet, Alchemist ma również swoje ograniczenia. Model czasami nie radzi sobie z poprawnym odtworzeniem oświetlenia, co prowadzi do generowania fizycznie niemożliwych przezroczystości. Przykładem może być ręka częściowo włożona do pudełka, gdzie przy maksymalnym ustawieniu przezroczystości widoczna byłaby wyłącznie przezroczysta część pudełka bez dłoni.


Plany na przyszłość

Zespół badawczy planuje dalszy rozwój modelu, mając na celu poprawę edycji trójwymiarowych zasobów graficznych oraz wnioskowanie właściwości materiałowych z obrazów. Według Prashanta Sharmy, taki rozwój mógłby w przyszłości umożliwić połączenie wizualnych i mechanicznych cech obiektów.


Alchemist to narzędzie, które może zrewolucjonizować sposób edytowania obrazów, oferując precyzyjną kontrolę nad właściwościami materiałowymi obiektów. Jego potencjał w różnych dziedzinach jest ogromny, od gier wideo po trening robotów, co czyni go niezwykle wartościowym narzędziem w arsenale twórców treści graficznych. Prace zespołu z MIT CSAIL i Google Research zostaną zaprezentowane na konferencji CVPR w czerwcu, gdzie zostaną omówione szczegółowo osiągnięcia i przyszłe kierunki rozwoju tej technologii.



RSS
Follow by Email
LinkedIn
LinkedIn
Share
YouTube
Instagram
Tiktok
WhatsApp
Copy link