Apple не е един от най-добрите играчи в AI играта днес, но новият AI модел с отворен код на компанията за редактиране на снимки показва какво може да допринесе в тази област. Моделът се нарича MLLM-направлявано редактиране на изображения (MGIE), което използва мултимодални големи езикови модели (MLLM) за интерпретиране на текстови команди при обработка на изображения. С други думи, инструментът има способността да редактира изображения въз основа на текста, който потребителят въвежда. Въпреки че това не е първият инструмент, който може да направи това, „човешките инструкции понякога са твърде кратки, за да могат съществуващите методи да бъдат уловени и следвани.“ Проектен лист (PDF) Прочетете.
Компанията разработи MGIE с изследователи от Калифорнийския университет в Санта Барбара. MLLM имат способността да превръщат прости или двусмислени текстови подкани в по-подробни и ясни инструкции, които самият редактор на изображения може да следва. Например, ако потребител иска да редактира изображение на пица с пеперони, за да го „направи по-здравословно“, MLLM могат да го интерпретират като „добавяне на веган гарнитура“ и да редактират изображението като такова.
В допълнение към извършването на значителни промени в изображенията, MGIE може също да изрязва, преоразмерява и завърта изображения, както и да подобрява тяхната яркост, контраст и цветови баланс, всичко чрез текстови подкани. Може също така да модифицира определени области от изображението и може например да модифицира косата, очите и облеклото на човека в него или да премахва обекти на заден план.
като venturebeat Бележки, Apple пусна модела чрез githubно желаещите могат да пробват и a експериментален Което в момента се хоства в Hugging Face Spaces. Apple все още не е изяснила дали планира да използва наученото от този проект в инструмент или функция, която може да интегрира в някой от своите продукти.

„Internet trailblazer. Travelaholic. Страстен евангелист в социалните медии. Защитник на телевизията.“

More Stories
Anthropic предлага временно забавяне на развитието на изкуствения интелект
Google Gemini 3.5 Flash показва ново поколение изкуствен интелект
Изкуственият интелект спори сам със себе си за бъдещето на професиите