Model dyfuzji zmieniający właściwości materiałowe
Badacze z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) oraz Google Research stworzyli zaawansowany model dyfuzji, który potrafi zmieniać właściwości materiałowe obiektów na zdjęciach. System, nazwany Alchemist, umożliwia użytkownikom modyfikowanie czterech atrybutów zarówno na rzeczywistych, jak i generowanych przez sztuczną inteligencję obrazach: szorstkości, metaliczności, albedo (podstawowego koloru obiektu) oraz przezroczystości.
Technologia modelu Alchemist
Alchemist działa na bazie modelu dyfuzji denoising, wykorzystując Stable Diffusion 1.5, znany z fotorealistycznych rezultatów i zdolności do edycji obrazów. Model ten, w przeciwieństwie do wcześniejszych wersji, koncentruje się na niskopoziomowych atrybutach materiałowych, umożliwiając precyzyjne modyfikacje przy pomocy intuicyjnego interfejsu suwakowego.
Zastosowania modelu Alchemist
Możliwości Alchemist mogą znaleźć zastosowanie w różnych dziedzinach, takich jak gry wideo, efekty wizualne, projektowanie graficzne, a także w treningu robotów. Na przykład, edytowanie modeli w grach wideo może zostać znacznie przyspieszone dzięki możliwości precyzyjnego dostosowania tekstur. W efekcie graficy będą mogli szybciej dostosowywać wygląd obiektów do wymagań gry.
Poprawa danych treningowych i klasyfikacja obrazów
Model ten może również przyczynić się do poprawy danych treningowych dla robotów, umożliwiając im lepsze zrozumienie różnych tekstur, co jest kluczowe dla manipulacji obiektami w rzeczywistym świecie. Ponadto, Alchemist może pomóc w klasyfikacji obrazów, analizując, gdzie sieci neuronowe nie rozpoznają zmian materiałowych.
Przewaga nad innymi modelami dyfuzji
Alchemist wyróżnia się na tle innych modeli dyfuzji. Przeprowadzone testy wykazały, że model ten potrafi dokładnie edytować tylko wybrane obiekty na zdjęciach, pozostawiając tło nietknięte. W porównaniu do modelu InstructPix2Pix, Alchemist osiągnął wyższe wyniki dokładności i był preferowany przez użytkowników za swoje fotorealistyczne wyniki.
Ograniczenia modelu Alchemist
Mimo licznych zalet, Alchemist ma również swoje ograniczenia. Model czasami nie radzi sobie z poprawnym odtworzeniem oświetlenia, co prowadzi do generowania fizycznie niemożliwych przezroczystości. Przykładem może być ręka częściowo włożona do pudełka, gdzie przy maksymalnym ustawieniu przezroczystości widoczna byłaby wyłącznie przezroczysta część pudełka bez dłoni.
Plany na przyszłość
Zespół badawczy planuje dalszy rozwój modelu, mając na celu poprawę edycji trójwymiarowych zasobów graficznych oraz wnioskowanie właściwości materiałowych z obrazów. Według Prashanta Sharmy, taki rozwój mógłby w przyszłości umożliwić połączenie wizualnych i mechanicznych cech obiektów.