Специалисты MIT обнаружили ошибки в наборах данных, используемых для тестирования ИИ

Понедельник, 29 марта 2021 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Команда исследователей, возглавляемая специалистами из Массачусетского технологического института (MIT), изучила десять наборов данных, чаще всего используемых для тестирования систем машинного обучения. Ученые обнаружили, что около 3,4% данных были неточными или неправильно маркированными. Это могло вызвать проблемы в системах искусственного интеллекта, которые используют эти наборы данных.

Наборы данных, на каждый из которых есть ссылки более чем в 100 000 работ, включают текстовые материалы, изображения и видео из групп новостей, магазина Amazon, сервиса YouTube и базы фильмов IMDb. Среди ошибок — отрицательные отзывы о товарах, ошибочно помеченные как положительные, неверное описание того, что изображено на иллюстрациях,  неточное описание содержания звукозаписей.

Показательно, что для обнаружения возможных ошибок исследователи тоже использовали методы машинного обучения и соответствующие программные инструменты.

Остается добавить, что некоторые ошибки можно считать незначительными, а порой следует скорее говорить о неоднозначности входных данных. Тем не менее, в одном из наборов данных — тесте QuickDraw — ошибки есть примерно в 10% набора. Чему может научиться ИИ на таких данных — остается только догадываться.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 512
Рубрика: Hi-Tech


Архив новостей / Экспорт новостей

Ещё новости по теме:

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Архивы новостей за: 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003