PRKernel

Доставчик на новини в реално време в България, който информира своите читатели за последните български новини, събития, информация, пътувания, България.

Apple пуска модел с изкуствен интелект, който може да редактира снимки въз основа на текстови команди

Apple пуска модел с изкуствен интелект, който може да редактира снимки въз основа на текстови команди

Apple не е един от най-добрите играчи в AI играта днес, но новият AI модел с отворен код на компанията за редактиране на снимки показва какво може да допринесе в тази област. Моделът се нарича MLLM-направлявано редактиране на изображения (MGIE), което използва мултимодални големи езикови модели (MLLM) за интерпретиране на текстови команди при обработка на изображения. С други думи, инструментът има способността да редактира изображения въз основа на текста, който потребителят въвежда. Въпреки че това не е първият инструмент, който може да направи това, „човешките инструкции понякога са твърде кратки, за да могат съществуващите методи да бъдат уловени и следвани.“ Проектен лист (PDF) Прочетете.

Компанията разработи MGIE с изследователи от Калифорнийския университет в Санта Барбара. MLLM имат способността да превръщат прости или двусмислени текстови подкани в по-подробни и ясни инструкции, които самият редактор на изображения може да следва. Например, ако потребител иска да редактира изображение на пица с пеперони, за да го „направи по-здравословно“, MLLM могат да го интерпретират като „добавяне на веган гарнитура“ и да редактират изображението като такова.

Снимки на пица, гепарди, компютри и хора.

ябълка

В допълнение към извършването на значителни промени в изображенията, MGIE може също да изрязва, преоразмерява и завърта изображения, както и да подобрява тяхната яркост, контраст и цветови баланс, всичко чрез текстови подкани. Може също така да модифицира определени области от изображението и може например да модифицира косата, очите и облеклото на човека в него или да премахва обекти на заден план.

като venturebeat Бележки, Apple пусна модела чрез githubно желаещите могат да пробват и a експериментален Което в момента се хоства в Hugging Face Spaces. Apple все още не е изяснила дали планира да използва наученото от този проект в инструмент или функция, която може да интегрира в някой от своите продукти.

READ  Отговорът на AMD на DLSS на Nvidia е обещаващ ранен старт