В Южной Корее разрабатывают ИИ, оценивающий рукописные решения математических задач
- KOREA HERALD

- 17 дек. 2025 г.
- 3 мин. чтения
Корреспондент Гу Бон Хёк
- UNIST и POSTECH разработали ИИ «VEHME» для проверки рукописных ответов по математике

Процесс работы VEHME, который анализирует рукописные решения по математике шаг за шагом [Предоставлено UNIST]
В Южной Корее разрабатывают ИИ, который тщательно проверяет неаккуратно написанные ответы по математике и даже дает обратную связь.
17 декабря профессор Ким Тхэ Хван из Высшей школы искусственного интеллекта UNIST и команда во главе с профессором Го Сон Ана из POSTECH объявили о разработке «VEHME», модели искусственного интеллекта, которая оценивает сложные рукописные ответы по математике.
Оценка решений математических задач со свободным (открытым) ответом — самая трудоемкая работа в образовательной среде, однако ее автоматизация сталкивается с трудностями. Это связано с тем, что математические решения по своей природе включают в себя смесь уравнений, графиков и диаграмм, а почерк и оформление ответов у каждого ученика свой, что затрудняет точную распознавание и выявление ошибок искусственным интеллектом.
Разработанная исследовательской группой модель VEHME может точно считывать расположение и контекст уравнений, подобно человеку, следующему за ходом решения, и точно определять неверные рассуждения.
Когда исследователи оценили решения различных математических задач с помощью VEHME - от высшей математики до арифметики начальной школы - он продемонстрировал точность оценки, сопоставимую с крупными моделями, такими как GPT-4o и Gemini 2.0 Flash, несмотря на то, что является «легкой» моделью. Особенно в сложных задачах, где ответы были сильно искажены или неразборчивы, VEHME превосходила коммерческие модели, более точно указывая места ошибок. В отличие от VEHME, которая использует 7 миллиардов параметров, такие модели, как GPT и Gemini, как известно, обладают более чем триллионом параметров.

Процесс оценки VEHME для пошагового анализа рукописных математических решений. VEHME получает математический вопрос, изображение рукописного решения ученика и правильное решение, сравнивает и анализирует весь процесс. Он последовательно проверяет этапы вычислений и логические связи, использованные в решении ученика, чтобы определить правильность, объясняя местоположение и причину неверных шагов. На иллюстрации показана работа VEHME, сопоставляющая рукописное решение ученика с правильным решением для выявления ошибок [Предоставлено UNIST]
Исследовательская группа разработала VEHME с использованием своей запатентованной технологии Equation Visual Prompt Method (EVPM) и «метода двойного обучения». EVPM позволяет VEHME рисовать виртуальные рамки вокруг сложно выстроенных уравнений, обеспечивая, что он не упустит последовательность решения. Двухэтапное обучение с подкреплением гарантирует, что он может не только дать правильный ответ, но и точно объяснить, какая часть решения была неверна и почему.
Кроме того, поскольку сложных рукописных текстов и примеров исправлений, на которых мог бы учиться ИИ, было мало, были сгенерированы синтетические данные с использованием большой языковой модели (QwQ-32B).
Между тем, VEHME разработан как модель с открытым исходным кодом, что позволяет образовательным учреждениям, таким как школы и академии, использовать его бесплатно.

Ким Тхэ Хван (слева), профессор UNIST; Ко Сон Ан, профессор POSTECH; Тху Фуонг Нгуен, исследователь UNIST; Дык М. Нгуен, исследователь POSTECH [Предоставлено UNIST]
«Оценка рукописных решений математических задачи является одной из ключевых задач в области образовательных технологий искусственного интеллекта, а также типичной областью применения мультимодального искусственного интеллекта, который должен одновременно понимать как изображения, так и язык» - сказал профессор Ким Тхэ Хван, добавив: «VEHME — это модель, которая шаг за шагом следует сложным структурам решений, подобно человеку, и ее значение заключается в достижении стабильности и эффективности, необходимых для практического использования в образовательных учреждениях».
«Разработанный нами модуль EVPM позволяет автоматически структурировать сложно организованную визуальную информацию. Это делает его применимым не только в образовании, но и в различных промышленных областях для мультимодальных моделей рассуждения, таких как распознавание документов, анализ проектных чертежей и оцифровка рукописных записей» - отметил он.
Данное исследование, проведенное при поддержке Министерства науки и ИКТ, Национального исследовательского фонда Кореи и Института планирования и оценки информационно-коммуникационных технологий (веб-сайт: https://www.iitp.kr/eng/index.do), было принято в качестве научной статьи для EMNLP (Empirical Methods in Natural Language Processing), ведущей международной конференции в области обработки естественного языка (NLP).






Комментарии