ИИ расшифровывает движения животных, как язык

2 дня назад
6 мин. чтения

Корреспондент Ли Сын Гу

ИИ-модель KAIST выявила связанные с аутизмом социальные нарушения у мышей без предварительного обучения в области биологии

Инфографика, предоставленная KAIST, демонстрирует процесс, с помощью которого модель искусственного интеллекта BehavERT смогла классифицировать поведение животных и интерпретировать его значение (KAIST)

Общий обзор конвейера BehavERT. [Предоставлено KAIST]

Исследователи из Корейского института передовых наук и технологий (KAIST) разработали модель искусственного интеллекта, которая интерпретирует паттерны движений животных аналогично тому, как языковые модели анализируют слова, сообщил институт в среду.

Исследовательская группа создала модель искусственного интеллекта под названием BehavERT, которая анализирует последовательности движений животных в контексте, подобно тому, как языковая модель изучает, каким образом слова формируют смысл в предложении.

По данным KAIST, модель самостоятельно выявила основные социальные дефициты у мышей, используемых для моделирования аутизма, не проходя предварительного обучения на основе биологических знаний.

Команда преобразовала скелетные координаты частей тела мышей — таких как нос, уши, позвоночник, конечности и хвост — в токены и ввела их в трансформерную модель на основе BERT — тип архитектуры ИИ, широко используемый в обработке естественного языка.

По данным KAIST, BehavERT не просто классифицировала поведение, но и со временем научилась распознавать паттерны движений животных.

В ходе экспериментов модель уделяла особое внимание поведению, связанному с контактом «рот к рту», при различении мышей-моделей аутизма, лишенных гена Shank3B, и контрольных мышей.

KAIST отметил, что этот результат согласуется с данными предыдущих исследований, показывающих, что мыши-модели аутизма могут нормально приближаться к другим мышам, но демонстрируют дефицит в фактическом социальном взаимодействии. По мнению института, это свидетельствует о том, что ИИ идентифицировал ключевую особенность поведения, связанного с аутизмом, исключительно на основе наблюдения.

Модель превзошла существующие передовые модели в пяти международных тестах, охватывающих социальное взаимодействие, поведение групп животных, анализ трехмерных движений и анализ поведения, связанного с аутизмом.

KAIST сообщил, что BehavERT также может показывать исследователям, на каких видах поведения она сосредоточивалась при вынесении суждений, что делает модель более интерпретируемой.

Модель также систематизировала поведенческие черты, такие как движение, внимание и общительность, что, по мнению KAIST, свидетельствует о том, что поведение животных может иметь структуру, сопоставимую с языком.

Рис. 1. Обзор конвейера BehaVERT для анализа поведения. (a) Конвейер от аннотации до прогнозирования: Исходные видеоданные проходят аннотирование ключевых точек и поведенческих элементов с помощью веб-инструментов, в результате чего получаются последовательности скелетов, которые токенизируются и встраиваются в 768-мерное гиперпространство. Кодер BERT обрабатывает последовательности с помощью позиционного кодирования, используя либо токены на уровне кадров, либо токен CLS для классификации на уровне последовательностей. (b) Анализ поведенческого вложения: Токены из последнего слоя извлекаются для неконтролируемого кластеризации, при этом визуализация с помощью t-SNE (вверху) раскрывает структуру поведения. Внизу синхронизированные столбцы отображают веса внимания, оценки достоверности, эталонные модели поведения и прогнозы модели (напряжение), что позволяет анализировать паттерны принятия решений. (c) Система синхронизированной визуализации: Интегрированный дисплей синхронизирует 2D/3D движения скелета на арене (вверху слева), положение в реальном времени в пространстве поведенческих вложений (справа) и временные паттерны внимания (внизу), при этом красная пунктирная линия указывает текущий момент времени во всех видах

Рис. 2. Стратегии развертывания во времени и расширения данных. (a) Развертывание во времени: создание перекрывающихся последовательностей с помощью скользящих окон для увеличения разнообразия обучающих данных и обеспечения разнообразных временных контекстов. (b) Стратегии расширения: наглядные примеры операций зеркального отражения (горизонтальное/вертикальное отражение относительно центра арены), поворота (случайные или 90-градусные повороты в плоскости XY), сдвига (перемещение, ограниченное границами арены) и джиттера (возмущения координат ключевых точек) применительно к ключевым точкам скелета

Рис. 3. Конвейер аннотирования и результаты валидации на наборе данных SBeA. (a) Веб-интерфейс для аннотирования ключевых точек, поддерживающий сценарии с участием нескольких животных и интерактивное размещение. (b) Погрешность прогнозирования по всем ключевым точкам при оценке позы с использованием конвейера BehaVERT. (c) Сравнение погрешностей прогнозирования между всеми кадрами и кадрами тесного взаимодействия, демонстрирующее устойчивую производительность даже в сложных социальных сценариях. (d) Схема 3D-реконструкции и репроекции. (e) Погрешность репроекции, характеризующая качество 3D-реконструкции. (f) Интерфейс инструмента аннотирования поведения, демонстрирующий треки аннотаций для одного животного (вверху) и социального взаимодействия (внизу). (g) Распределение аннотированных типов поведения по категориям как для сценариев с одним животным, так и для сценариев социального взаимодействия. (h) Эффективность модели (показатели F1) при прогнозировании поведения с использованием аннотаций, созданных с помощью наших инструментов

Рис. 4. Влияние пространственного расширения данных на классификацию поведения отдельного животного с помощью PAIR-R24M. (a–c) Матрицы путаницы различий, иллюстрирующие три взаимодополняющих взгляда на эффект расширения данных. (a) Разница в коэффициенте воспроизведения по классам между моделями с расширением данных и стандартными моделями на не-perturbed тестовых данных, количественно оценивающая эффект расширения данных на этапе обучения. (b) Изменение коэффициента воспроизведения стандартной модели при оценке на пространственно возмущённых данных по сравнению с невозмущёнными тестовыми данными, демонстрирующее чувствительность к пространственным преобразованиям. (c) Соответствующая реакция на возмущение для модели с дополненными данными, демонстрирующая практически полную пространственную инвариантность (дельта F1 = -0,0021). (d) Пространственные тепловые карты с видом сверху, отображающие координаты центра тела внутри круглой арены. Верхний ряд: типы поведения, на которые аугментация оказала наибольшее влияние (CrouchExplore, HeadTilt, Sniff, Investigate); все они демонстрируют выраженную пространственную концентрацию, связанную с фиксированными элементами арены. Нижний ряд: локомоция, которая пространственно рассеяна и устойчива к аугментации; RearUp и RearDown, которые, несмотря на пространственную концентрацию, остаются устойчивыми благодаря своей зависимости от вертикальных (ось Z) смещений, сохраняющихся при горизонтальной аугментации; а также совокупное распределение по всем типам поведения

Рис. 5. Чувствительность к временному порядку и композиционная структура вложений. (a, b) Чувствительность к временному порядку (TOS) монотонно возрастает с увеличением длины последовательности в задаче 1 CalMS21 (a) и при классификации генотипов SBeA (b). (c) Композиционная структура во вложениях PAIR-R24M (с учителем). PCA выявляет PC1 (мобильность) и PC2 (вертикальное внимание) с векторными аналогиями вдоль каждой оси. (d) Композиционная структура во вложениях CalMS21 (самообучение MKM). PCA выявляет PC1 (социальное взаимодействие) и PC2 (репродуктивный контекст) с четырьмя векторными аналогиями. Подробности об аналогиях см. в тексте

Рис. 6. Схематическое изображение возмущений в абляционном исследовании. (a) Перемешивание меток: метки генотипов случайным образом переставляются между видеофайлами при сохранении соответствия между видео и их поведенческими последовательностями, что разрушает связь между поведенческими паттернами и фенотипами. (b) Перемешивание последовательностей: временной порядок кадров (токенов) внутри каждой последовательности случайным образом переставляется при сохранении правильной метки генотипа, что позволяет проверить, способствует ли временная последовательность классификации помимо маргинального распределения поз

Рис. 7. Анализ кластеризации «без учителя» выявляет выученную поведенческую структуру. (a) Визуализация t-SNE поведений задачи 1 CalMS21, демонстрирующая отчетливые кластеры для «Атака», «Исследование» и «Оседлание». (b) Показатели качества кластеризации для CalMS21 (NMI, чистота, точность, F1). (c) Кластеризация поведений с помощью DeepEthogram для четырёх типов поведения отдельных животных, исключая «фоновые действия» и «дефекацию». (d) Показатели кластеризации DeepEthogram. (e) Поведения отдельных животных в PAIR-R24M (11 классов, включая «Бездействие»), демонстрирующие, что «Бездействие» доминирует в пространстве вложений, сжимая при этом другие типы поведения. (f) Поведенческие типы отдельных животных в модели PAIR-R24M без учета «бездействия», демонстрирующие иерархическую структуру между группами, основанными на локомоции и позе. (g) Социальные типы поведения в модели PAIR-R24M («Отсутствие взаимодействия», «Близость», «Исследование», «Преследование»), демонстрирующие четкое разделение, при котором типы «Отсутствие взаимодействия» и «Близость» разделяют пространство. (h) Кластеризация по генотипам в SBeA, демонстрирующая, что пары WT-WT занимают отдельное поведенческое пространство, в то время как генотипы KO пересекаются, что объясняет сложность классификации

Рис. 8. Анализ механизма внимания раскрывает процесс принятия решений моделью при классификации штаммов MABe22. (a) Правильные предсказания поддерживают базовое внимание вблизи равномерного распределения. (b) Высокая уверенность коррелирует с пиковым значением внимания. (c) Связь между уверенностью и пиковым значением внимания существует только в последнем слое. (d) Пиковое внимание минимально влияет на точность. (e) Пиковые значения внимания являются сильным предиктором уровня уверенности. (f) Метакогнитивная калибровка: уровень уверенности предсказывает правильность, несмотря на механическую независимость. (g) Пиковые значения внимания концентрируются в непосредственной близости. (h) Модуляция признаков: оральный контакт и наблюдение повышают внимание; приближения и сгруппированные действия подавляют его. (i) Успех против неудачи: орально-оральный контакт получает повышенное внимание в правильных предсказаниях, что позволяет идентифицировать его как основной дискриминативный признак

Эти результаты могут открыть путь к созданию «базовой модели поведения» нового поколения, которая сможет использоваться в разработке лекарственных препаратов, психиатрических исследованиях и поведенческой генетике, добавил институт.

KAIST сообщил, что все члены исследовательской группы, включая ведущего автора Шин Сын Чже, являются учеными в области биологических наук, которые самостоятельно освоили ИИ, разработав модель и стратегию обучения для анализа поведения с нуля.

«BehavERT — это новая модель искусственного интеллекта, способная выйти за рамки простой классификации поведения и понять его смысл», — сказал профессор Ким Дэ Су, возглавлявший исследовательскую группу.

«Мы ожидаем, что она станет ключевым исследовательским инструментом, который может привести к новым открытиям в различных областях биологических наук, включая разработку лекарственных препаратов, психиатрические исследования и поведенческую генетику».

seungku99@heraldcorp.com

#южнаякорея #корея #политика #экономика #промышленность #технология #искусственныйинтеллект #машинноеобучение #биология #социология #психология #поведения #аутизм #бизнес #финансы #общество #культура #искусство #азия

RUSSIAN EDITION

ИИ расшифровывает движения животных, как язык

Недавние посты

Комментарии