През последните две години видяхме невероятен напредък в системите с изкуствен интелект, когато става въпрос за разпознаване и анализиране на сложно съдържание на изображения. Но нов документ подчертава колко много модерни „модели за визуално обучение“ не успяват да изпълнят прости задачи за визуален анализ на ниско ниво, които са лесни за изпълнение от хората.
В провокативно озаглавения предпечат „Визуалните езикови модели са сляп„ (Което той има PDF версия Това включва емотикони с тъмни слънчеви очила В заглавието), изследователи от Auburn University и University of Alberta създадоха осем прости теста за зрителна острота с обективно верни отговори. Тези тестове варират от определяне на броя пресичания на две цветни линии до идентифициране на оградената буква в дълга дума до преброяване на броя на припокриващите се форми в изображение (може да се предоставят примери и представителни резултати). Разгледан на уеб страницата на изследователския екип).
Важното е, че тези тестове са Генерирано от потребителски код Той не разчита на вече съществуващи изображения или тестове, които могат да бъдат намерени в публичния интернет, като по този начин „намалява[ing] „Възможно е VLM да го разрешат чрез консервация“, според изследователите. Тестовете също така изискват „малко или никакви познания за света“ извън основните 2D форми, което затруднява извеждането на отговора само от „текстовия въпрос и избора“ (което беше демонстрирано в няколко предишни проучвания). Беше идентифициран като проблем за някои други визуални AI показатели).
Вие ли сте най-умният човек в пети клас?
След провеждане на множество тестове на четири различни оптични модела – GPT-4o, Gemini-1.5 Pro, Sonnet-3 и Sonnet-3.5 – изследователите откриха, че и четирите модела не достигат 100-процентната точност, която може да очаквате за такъв визуален анализ прости (които повечето зрящи хора не биха имали много трудности да постигнат). Но степента на увреждане на производителността на AI варира значително в зависимост от конкретната задача. Например, когато беше помолен да преброи броя на редовете и колоните в празна решетка, най-добре представящият се модел даде точен отговор само в по-малко от 60 процента от времето. От друга страна, Gemini-1.5 Pro постигна близо 93 процента точност при идентифициране на кръгли букви, което е близко до човешкото представяне.
Дори малки промени в задачите също могат да доведат до огромни промени в резултатите. Докато четирите тествани модела успяха правилно да идентифицират пет припокриващи се кухи кръга, точността във всички модели спадна до по-малко от 50 процента, когато бяха включени шест до девет кръга. Изследователите предполагат, че това „подсказва, че VLM са предубедени към известното лого на Олимпийските игри, което съдържа пет кръга“. В други случаи моделите понякога отгатваха нелогични отговори, като отгатване на „9“, „n“ или „©“ като буква в кръг в думата „Subdermatoglyphic“.
Като цяло, резултатите подчертават как AI моделите, които могат да се представят добре при визуални разсъждения на високо ниво, имат някои значителни „слепи петна“ (съжалявам), когато става въпрос за абстрактни изображения на ниско ниво. Всичко това донякъде напомня на подобни пропуски в способностите, които често виждаме в съвременните големи езикови модели, които могат да генерират много убедителни резюмета на дълги текстове, като в същото време се провалят в много елементарна математика и… Правопис Въпроси.
Тези пропуски във възможностите на VLM може да се дължат на неспособността на тези системи да обобщават извън типовете съдържание, за които са изрично обучени. Въпреки това, когато изследователите се опитаха да настроят фино модел, използвайки конкретни изображения, взети от една от техните задачи (тестът „Докосват ли се два кръга?“), моделът показа само скромно подобрение, от 17% точност до около 37%. „Стойностите на загубите за всички тези експерименти бяха много близки до нула, което показва, че моделът се вписва повече в набора за обучение, но не успява да обобщи“, пишат изследователите.
Изследователите предполагат, че разликата в способностите на VLM може да е свързана с т.нар „Късно сливане“ на визуални енкодери върху големи предварително обучени езикови модели. а Подход на обучение „Ранна интеграция”. Изследователите предполагат, че система, която интегрира визуално кодиране заедно с езиковото обучение, може да даде по-добри резултати при тези задачи на ниско ниво (без да предлага какъвто и да е вид анализ на този проблем).
„Internet trailblazer. Travelaholic. Страстен евангелист в социалните медии. Защитник на телевизията.“
More Stories
Удивете се на вниманието – New York Times
Черен мит: Актуализацията на Wukong 1.0.8.14860 включва някои важни корекции и отслабва по-специално един бос
Играчите се оплакват от дългото време за намиране на мачове на PS5, тъй като броят на Concord намалява