PRKernel

Доставчик на новини в реално време в България, който информира своите читатели за последните български новини, събития, информация, пътувания, България.

Нов AI модел за „стабилна видео дифузия“ може да анимира всяко неподвижно изображение – Ars Technica

Нов AI модел за „стабилна видео дифузия“ може да анимира всяко неподвижно изображение – Ars Technica

Увеличавам / Все още има примери за движещи се изображения, използващи Stable Video Diffusion от Stability AI.

AI за стабилност

Във вторник AI се стабилизира Освободен Stable Video Diffusion, нов безплатен инструмент за търсене, базиран на AI, който може да превърне всяко неподвижно изображение в кратко видео със смесени резултати. Това е отворен преглед на два модела AI, които използват технология, наречена изображение към видео, и могат да работят локално на машина с Nvidia GPU.

Миналата година Stability AI направи вълни с пускането на Stable Diffusion, модел за синтез на изображения с „отворено тегло“, който стартира вълна от отворен синтез на изображения и вдъхнови голяма общност от любители, които изградиха технологията със свои собствени персонализирани подобрения. Настройка. Стабилността сега иска да направи същото с AI видео композирането, въпреки че технологията все още е в начален стадий.

Понастоящем Stable Video Diffusion се състои от два модела: единият, който може да произвежда синтез на изображение към видео при 14 кадъра (наречен „SVD“), и другият, който генерира 25 кадъра (наречен „SVD-XT“). Може да работи с различни скорости от 3 до 30 кадъра в секунда и извежда кратки MP4 видеоклипове (обикновено с дължина от 2 до 4 секунди) с разделителна способност 576 x 1024.

В нашите локални тестове създаването на генериране на 14 кадъра отне около 30 минути на Nvidia RTX 3060 графична карта, но потребителите могат да изпитат модели, работещи много по-бързо в облака чрез услуги като Прегръщане на лицето И клониране (За някои от тях може да се наложи да платите). В нашите експерименти генерираната анимация обикновено запазва част от сцената неподвижна и добавя ефекти на панорамиране и мащабиране или анимиран дим или огън. Хората на снимките често не се движат, въпреки че получихме снимка на Getty на Стив Возняк, за да оживим малко.

READ  Собственикът на RTX 3090 намира стара ръкавица вътре в графичен процесор за 1500 долара

(Забележка: Освен изображението на Стив Возняк от Getty Images, другите анимации в тази статия са създадени с помощта на DALL-E 3 и са анимирани с помощта на Stable Video Diffusion.)

Като се имат предвид тези ограничения, стабилността подчертава, че моделът е все още ранен и е предназначен само за изследване. „Въпреки че с нетърпение актуализираме нашите модели с най-новите разработки и работим, за да включим вашите отзиви, този модел не е предназначен за реални или търговски приложения на този етап. Вашите прозрения и обратна връзка относно безопасността и качеството са важни за подобряването на този модел за окончателното му издание“, пише компанията на своя уебсайт.

Струва си да се отбележи, но може би не е изненадващо, разпространението на стабилизирано видео Изследователска работа Той не разкрива източника на обучителните набори от данни за моделите, а само казва, че изследователският екип е използвал „голям набор от видео данни от приблизително 600 милиона проби“, които са организирали в Големия набор от видео данни (LVD), който се състои от 580 милиони анотирани видеоклипове. Обхваща 212 години съдържание.

Stable Video Diffusion не е първият AI модел, който предлага този тип функционалност. По-рано сме разглеждали други методи за синтез на AI видео, включително тези от Meta, Google и Adobe. Също така разгледахме ModelScope с отворен код и това, което мнозина смятат за най-добрия AI видео модел в момента, моделът Gen-2 на Runway (Лаборатории Бека е друг доставчик на видео, задвижван от AI.) Изкуственият интелект за стабилност казва, че работи и върху модел за текст към видео, който ще позволи създаването на кратки видеоклипове с помощта на писмени подкани вместо изображения.

READ  Ford разкрива Mustang GTD с 800 конски сили

Тегла на източника и разпространението на стабилно видео На разположение В GitHub друг лесен начин да го тествате локално е да го стартирате чрез файл Пинокио ​​платформакойто лесно се справя с инсталационните зависимости и изпълнява модела в собствена среда.