ИИ Microsoft может нарисовать объект по текстовому описанию

Пятница, 19 января 2018 г.

Следите за нами в ВКонтакте, Телеграм'e и Twitter'e

Microsoft

Исследователи из Microsoft разрабатывают ИИ-технологию, которая способна нарисовать объект по его детальному текстовому описанию. О разработке сообщает портал Engadget.

Технологии

Никаких треснувших экранов: теперь есть восстанавливающееся стекло
Технологии

Тектонический процесс: как цифровизация изменит нефтяную отрасль

Система не пытается найти уже существующее изображение по описанию — она именно создает настоящий рисунок. Например, человек может попросить компьютер нарисовать «желтую птицу с черными крыльями и коротким клювом» — и система самостоятельно, пиксель за пикселем, нарисует заданный объект. «Такие птицы могут и не существовать в реальном мире — просто так их представляет наш компьютер», — отмечает ведущий автор работы Сяодон Хе (Xiaodong He).

Хотя на данный момент технология работает не идеально, нетрудно представить, что в будущем она могла бы пригодиться в качестве, например, ассистента для художников и дизайнеров или использоваться в качестве инструмента для обработки фотографий на основе речевой информации. Более того, Хе предполагает, что когда-нибудь компьютер научится генерировать анимационные фильмы по написанному сценарию.

Научная группа Microsoft начала исследование компьютерного зрения и обработки естественного языка с CaptionBot — ИИ-системы, которая автоматически создает подписи для фотографий; затем ученые разработали систему SeeingAI, способную отвечать на вопросы людей об изображениях. Текущая же технология (научная работа, посвященная ей, опубликована на сайте arXiv) состоит из двух частей: одна из них генерирует изображения и называется Generative Adversarial Network (GAN), другая — оценивает качество сгенерированных картинок. Бот, рисующий объекты, был натренирован на парах, состоящих из изображений и подписей к ним, — так ИИ учится понимать, какие слова относятся к каким изображениям. Исследователи также создали математическую репрезентацию человеческого внимания — как раз того, что мы используем, когда пытаемся нарисовать что-либо на основании сложных описаний.