Ученые из Университета Джонса Хопкинса выяснили, что современные нейросети уступают людям в понимании социальных взаимодействий на видео - даже в коротких трехсекундных сценах.
Об этом сообщает Johns Hopkins University (JHU).
В эксперименте участникам показывали короткие видеоролики, в которых люди взаимодействовали, выполняли действия рядом друг с другом или действовали независимо. Добровольцы оценивали происходящее по различным социальным признакам. Затем те же задачи предложили более чем 350 языковым, видео- и графическим ИИ-моделям.
Оказалось, что люди почти всегда приходили к единым интерпретациям, в то время как ИИ - нет. Видео-модели не могли точно описать действия людей, а даже лучшие из моделей для изображений, анализировавшие серию кадров, с трудом определяли, взаимодействуют ли люди между собой. Языковые модели показали лучшие результаты в предсказании человеческого поведения, в то время как видео-модели точнее предсказывали реакцию мозга на сцену - но ни одна из моделей не смогла приблизиться к уровню человеческого понимания.
"ИИ, управляющий автономным автомобилем, должен понимать намерения и действия пешеходов и других водителей", - объяснила Лейла Исик, доцент кафедры когнитивных наук и ведущий автор исследования. - "Например, способен ли пешеход перейти улицу или просто разговаривает с кем-то на тротуаре? Сейчас ИИ с этим не справляется".
Ученые считают, что корень проблемы - в устройстве самих нейросетей: они вдохновлены структурой области мозга, отвечающей за распознавание статичных изображений, в то время как за восприятие динамических социальных сцен отвечает другая часть мозга.
"ИИ научился видеть лица и предметы на изображениях - это был большой шаг. Но реальная жизнь - это не набор картинок. Она разворачивается во времени и требует понимания контекста и динамики", - подчеркнула соавтор исследования Кэти Гарсия.