В Корее разрабатывают технологию, позволяющую перенести знания с одной ИИ-модели на другую независимо от их структуры или размера
- KOREA HERALD

- 1 час назад
- 3 мин. чтения
Корреспондент Гу Бон Хёк
- KAIST и Университет Корё разрабатывает технологию «передачи знаний», устраняющую необходимость повторного обучения
- Обеспечивает прямую передачу приобретенных знаний между различными моделями ИИ

ИИ передает свой знания новым коллегам [Предоставлено KAIST]
Представьте себе, насколько будет неудобно, если каждый раз при смене смартфона нужно вручную с нуля переносить контакты и фотографии. Современные модели искусственного интеллекта (ИИ) сталкиваются с аналогичной проблемой. Всякий раз, когда появляется новая, более совершенная модель ИИ, такая как ChatGPT, они должны проходить обширную переподготовку заново с использованием огромных объемов данных и значительными затратами, чтобы приобрести специальные знания в конкретной области. Корейские исследователи разработали технологию «передачи знаний» между моделями ИИ, которая может решить эту проблему одним махом.
27 января Корейский институт передовых технологий (KAIST) сообщил, что исследовательская группа под руководством профессора Ким Хён У из факультета компьютерных наук в сотрудничестве с Университетом Корё разработала новую технологию, которая позволяет эффективно «передавать» полученные знания между различными моделями искусственного интеллекта.
В области искусственного интеллекта в настоящее время быстро развиваются модели «зрение-язык» (VLM), которые понимают как изображения, так и текст. Это легко понять, если рассмотреть мультимодальные системы ИИ, такие как ChatGPT, которые дают объяснения, когда пользователи выкладывают изображение и задают вопросы. Эти модели обладают преимуществом, заключающимся в том, что они могут относительно быстро адаптироваться к новым областям с помощью небольшого количества данных, поскольку они были предварительно обучены на крупномасштабных наборах данных в виде изображения и языка.
Однако была выявлена серьезная неэффективность: каждый раз, когда появляется новая модель ИИ, этот «процесс адаптации» необходимо выполнять заново с нуля. Существующие методы адаптации тоже сталкивались с ограничениями: их было сложно применять напрямую, если структура модели отличалась даже незначительно, или требовалось одновременное использование нескольких моделей, что значительно увеличивало затраты на память и вычисления.
Для решения этих проблем исследовательская группа предложила «TransMiter», технологию «переносимой адаптации», которая позволяет повторно использовать полученные знания независимо от структуры или размера модели. Суть этой технологии заключается в прямой передаче «опыта адаптации», накопленного одним ИИ во время обучения, другой модели ИИ.
Этот подход устраняет необходимость реконструирования сложной внутренней структуры ИИ, вместо этого передавая приобретенные навыки другому ИИ исключительно на основе результатов прогнозирования (вывода). Даже ИИ-модели с разной структурой могут сразу использовать ноу-хау, приобретенное другим ИИ, если обеспечить организацию на основе ответов, полученных на один и тот же вопрос. Следовательно, нет необходимости повторять сложные и трудоемкие процессы обучения, а скорость практически не страдает.

Рисунок 2: Общая схема.
(a) Извлечение знаний об адаптации. Исходя из предварительно обученных θpt-s и тонконастроенных слабых VLM θft-s, TransMiter фиксирует адаптационные знания δs, минимизируя расстояние между рафинированными логитами ˆzs и тонконастроенными, слабыми логитами VLM zft-s. Адаптер принимает логиты модели без обучающих примеров (zero-shot), в качестве входных данных и включает в себя как классы задач Ctask, так и вспомогательные классы Caux.
(b) Передача знаний об адаптации. Как только становится доступным сильный VLM θpt-t, матрица отображения ˆW вычисляется с помощью решения замкнутой формы для выравнивания входных характеристик между слабыми (Hs) и сильными (Ht) VLM, заменяя исходную матрицу перехода Ws на Wt = ˆW⊺Ws.
(c) Улучшение модели. Во время вывода с целевым VLM через TransMiter θ∗t, предварительно обученные целевые логиты VLM zpt-t проходят через адаптер, что приводит к улучшению прогнозов. Впоследствии, поскольку TransMiter предлагает сильную начальную точку, его можно тонко настроить с помощью помеченных данных, чтобы максимально увеличить его возможности.

Таблица 1: Производительность при переносе адаптации с одной базовой модели на другую. Мы объединяем исходные и целевые модели среди RN50, ViT-B/16 и ViT-L/14. Строки, выделенные серым цветом, отражают производительность целевой модели при тонкой настройке, служа верхней границей показателя.

Таблица 2: Результаты переноса адаптации с базовой модели на новую. Исходная и целевая модели — ViT-B/16 и ViT-L/14 соответственно. В качестве стратегии тонкой настройки мы использовали PromptSRC.

Таблица 3: Сравнение производительности с контролируемой тонкой настройкой. Все методы используют ViT-L/14 в качестве базовой модели. TransMiter+ использует ViT-B/16 для каждой указанной стратегии извлечения адаптационных знаний.

Таблица 5: Анализ эффективности. Расходы на вычисления измерены с использованием одного графического процессора A6000 на наборе данных StanfordCars.

Исследовательская группа, стоящая за данным исследованием (слева направо): Ким Хён У, профессор KAIST; Ли Сан Хёк, постдокторский исследователь KAIST; Сон Тхэ Хун, магистр KAIST; Пак Чжи Хван, аспирант Университета Корё [Предоставлено KAIST]
Данное исследование имеет большое значение, поскольку оно впервые продемонстрировало, что адаптивные знания в ИИ, которые ранее считались непригодными для повторного использования в моделях, имеющих другие структуры и размеры, могут быть точно перенесены независимо от типа модели. Это не только снижает затраты на повторное обучение, но и открывает перспективы его применения в качестве так называемой технологии «патчей знаний», позволяющей в режиме реального времени обновлять большие языковые модели в зависимости от конкретных областей.
«Расширение этого исследования может существенно сократить затраты на последующее обучение, которое нужно было провести каждый раз при появлении новых, сверхбольших языковых моделей, которые к тому же и быстро развиваются» - пояснил профессор Ким Хён У, добавив: «Это сделает возможным «патч моделей», позволяющий добавить специальные знания в конкретных областях».
Результаты исследования приняты для представления на AAAI 2026, ведущей международной конференции в области искусственного интеллекта.





![[Редакция] О тупиковой ситуации с роботом-гуманоидом Hyundai Atlas](https://static.wixstatic.com/media/4875e9_63aa899d954d40ad8158054d82512fdd~mv2.jpg/v1/fill/w_900,h_900,al_c,q_85,enc_avif,quality_auto/4875e9_63aa899d954d40ad8158054d82512fdd~mv2.jpg)
Комментарии