top of page
Поиск

О рутинной работе по обучению ИИ реальному миру

Эпоха искусственного интеллекта порождает работников, занятых неполный рабочий день, которые помогают алгоритмам машинного обучения становиться умнее


(123рф)


Технологические евангелисты говорят, что однажды искусственный интеллект и роботы освободят людей от простых и повторяющихся физических или когнитивных задач.


Но прежде чем мы все освободимся от утомительной работы, ИИ сначала понадобится армия терпеливых работников, чтобы научить его тонкостям реального мира, например тому, как отличить кошку от собаки.


Эти работники, известные как маркировщики данных или аннотаторы данных, обрабатывают большие объемы необработанных данных, состоящих из изображений, видео или аудиозаписей, и маркируют их для передачи в алгоритмы машинного обучения.


Только после того, как он будет обучен на достаточном количестве размеченных данных — подумайте о тысячах изображений кошек разных пород, цветов и размеров, каждое из которых помечено как кошка, — ИИ сможет самостоятельно распознать кошку.


С января 45-летняя домохозяйка Ян Чжон Ён, работающая на полставки маркировщиком данных, проводит время дома, отмечая изображения для ИИ с помощью своего смартфона или компьютера.


45-летняя домохозяйка Ян отмечает каждую машину, которую видит, и добавляет метку, тем самым обозначая, что это транспортное средство (любезно предоставлено Ян)


«Это похоже на то, когда мы читаем детям книжку с картинками. Обычно мы указываем на конкретные вещи и добавляем пояснения, чтобы помочь детям понять», — сказала Ян корреспонденту The Korea Herald.


Например, на изображении дороги она отмечает каждую машину, которую видит, и добавляет метку, обозначающую, что это транспортные средства. За каждое изображение ей платят до 1000 вон (0,76 доллара США).


Как бы просто это ни звучало, работа утомительна и однообразна. Хотя это не требует специальной подготовки, специалисты по маркировке данных должны быть внимательными и уметь сидеть перед экраном в течение длительного времени.


«Разметка данных — это подработка без особых требований, идеально подходящая для таких домохозяек, как я. Я могу работать из дома со своим смартфоном или ноутбуком. Кроме того, онлайн-платформа для процесса маркировки не так уж сложна в использовании», — сказала Ян, которая раньше работала владельцем гостиницы, пока она не стала домохозяйкой 10 лет назад.


Маркировка данных имеет решающее значение для разработки любого проекта ИИ. Процесс применяется не только к изображениям, но также к видео и аудио, согласно AIMMO, аутсорсинговому агентству по маркировке данных.


Маркировка данных — это то, что обеспечивает работу повсеместно распространенных сервисов голосового помощника на основе искусственного интеллекта, таких как Bixby от Samsung Electronics и Siri от Apple, и позволяет им понимать различные интонации и акценты. Для обучения технологии искусственного интеллекта, активируемой голосом, специалисты по маркировке данных добавляют словесные пояснения к каждому произнесенному предложению, объясняет AIMMO на своем веб-сайте.


«Ногада» эпохи ИИ


Согласно данным Статистического управления Кореи, по состоянию на 2021 год в стране насчитывался 1481 маркировщик данных, и 1,07 миллиона человек заявили, что заинтересованы в работе в этой области, по сравнению с 650 000 в 2020 году.


Согласно отчету CrowdWorks - краудсорсинговой платформы для ИИ - за 2019 год, более половины специалистов по маркировке данных в стране устроились на эту работу, чтобы получить дополнительный доход. Более 80 процентов были наемными рабочими.


Вот почему маркировщики данных называют «ногадой» цифровой эпохи. Ногада, что в Корее означает разнорабочие, обычно относится к временной работе на стройплощадках, но также может использоваться домохозяйками, которые зарабатывают дополнительные деньги, прикрепляя пластиковые глаза к мягким куклам или складывая коробки из-под пиццы.


По данным Altovision, компании, специализирующейся на создании обучающих наборов данных для ИИ, маркировщики данных, которые в основном работают фрилансерами или наемными работниками, получают среднюю почасовую заработную плату в размере 17 000 вон в стране, где текущая минимальная заработная плата составляет 9 160 вон.


Спрос на работу по маркировке данных будет расти, поскольку применение ИИ в бизнесе и повседневной жизни продолжает расти, сказал О Чжу Ян, директор Altovision.


«Несмотря на возросшую автоматизацию рабочих мест, некоторые виды работ по-прежнему лучше выполняются людьми. Именно люди могут научить машины думать и вести себя. Данные, обработанные и помеченные людьми, являются источником жизненной силы ИИ», — сказал О.


Недавно Министерство науки и ИКТ Кореи создало «Плотину данных (Data Dam)» — инициативу, направленную на стимулирование развития смежных отраслей.


Проект, запущенный в 2020 году в рамках «Нового цифрового курса страны», сделал данные, собранные из общедоступных и частных сетей, доступными для обучения моделей ИИ в восьми ключевых областях бизнеса, включая беспилотные автомобили и здравоохранение.


Чтобы помочь использовать данные для разработки ИИ, Национальное информационное общество при министерстве запустило программу финансовой поддержки местных технологических стартапов для сбора и маркировки данных.


Государственная помощь для каждого компании-участника варьируется от 1,3 млрд вон до 5,2 млрд вон, в зависимости от объема и типа данных. Уточненные наборы данных для ИИ представляются на портале открытых данных государственного агентства AI Hub.


Инициатива Data Dam также предоставляет государственное финансирование малым и средним предприятиям и венчурным стартапам, разрабатывающим продукты на основе ИИ, такие как программы виртуальной примерки.


О из Altovision сказал, что маркировка данных – типичный пример новой формы занятости, которая мобилизует большой пул онлайн-работников для определенного проекта.


В рамках так называемого «крауд-найма (crowd employment)» работников просят выполнять простые задачи, которые можно выполнять самостоятельно через онлайн-платформы. Совместные усилия людей, разбросанных по всему миру, приводят к определенному результату, например, к большому набору обучающих данных для ИИ.


В настоящее время большинство таких «краудворкеров» работают неполный рабочий день, чтобы заработать дополнительные деньги. Но это может измениться в будущем, по словам О.


«Я знаю одного краудворкера, основная работа которого — маркировка данных. Более трех лет он работал в различных технологических стартапах. В ближайшем будущем краудворк может стать основным занятием, особенно среди молодых людей, разбирающихся в цифровых технологиях», — сказал он.


Чхве Джэ Хи (cjh@heraldcorp.com)


bottom of page