Гуглеры научили компьютер описывать фотографии человеческим языком

Среда, 19 ноября 2014 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Как говорится, одна картинка стоит тысячи слов, однако происходящее на этой самой картинке не обязательно описывать столь подробно — можно обойтись без фанатизма и дать краткое описание. Именно такому навыку «бездушную машину» решила обучить совместная команда ученых из Стенфордского университета и компании Google.

Исследователям удалось сделать, без преувеличения, важнейший шаг в области машинного обучения, искусственного интеллекта и, в частности, компьютерного зрения. Алгоритмы, созданные в «корпорации добра» активно используют в своей работе нейронные сети и способны не только распознавать предметы, классифицировать их и строить смысловые связи между объектами на совершенно незнакомой картинке, но и описывать все это обычным человеческим языком.

Two pizzas sitting on top of a stove top oven

Например, картинку, расположенную выше, система описала как «две пиццы, лежащие на поверхности плиты». А на изображении, расположенном ниже, алгоритмы распознали «группу людей, совершающих покупки на уличном рынке». Несмотря на кажущуюся тривиальность, решить такую задачу архисложно и за, казалось бы, простыми результатами стоит титаническая научная работа, сложнейшие системы ИИ и самые передовые технологии.

Потенциал у программной платформы гигантский, правда, широкое ее применение «прямо завтра» пока не планируется (что явно является лишь вопросом времени).

Создатели системы распознавания и описания образов на изображениях, говорят на данный момент лишь о помощи слабовидящим (которые смогут понять, что изображено на картинках, например, из статей в интернете) или об автоматическом снабжении картинок описаниями. 

На данный момент встречаются огрехи, но с течением времени все исправимо

Ясно, что такое применение столь совершенного инструмента сродни пальбы из пушки по воробьям. И совершенно очевидно, что передовая разработка в ближайшем будущем будет решать намного более актуальные и глобальные задачи. (Отдельные фантазеры легко свяжут в уме данную новость и прошлогодние вести о покупке Google роботехнических компаний, одной из которых является Boston Dynamics).

Наверняка одним из первых применений технологии будет связано с поисковой системой Google. Например, она может быть интегрирована в поиск картинок, не имеющих правильных подписей — индексируемые изображения будут получать автоматическое описание и помогут улучшить релевантность поисковой выдачи.

A picture is worth a thousand (coherent) words: building a natural description of images — Posted by Google Research Scientists Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan «Two pizzas sitting on top of a stove top oven» «A group of people shopping at an outdoor market» «Best seats in the house» People can summarize a complex scene in a few words without thinking twice. It«s much more difficult for computers.



Tweet

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 545
Рубрика: Hi-Tech


Архив новостей / Экспорт новостей

Ещё новости по теме:

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Архивы новостей за: 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003

Октябрь 2015: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31