Новости бизнесаСтатьиАналитические колонкиДеньгиКурс валютБизнес технологии
Главная > Новости бизнеса > Hi-Tech > Двач двачу рознь: слова из Даля в поисковых запросах к Яндексу

Двач двачу рознь: слова из Даля в поисковых запросах к Яндексу

Вторник, 29 ноября 2016 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Принято считать, что словарь Даля содержит множество непонятных диковинных слов: либо безнадёжно устаревших, либо мало распространённых, либо просто придуманных. Мы решили проверить, соответствует ли это действительности, и посмотрели, сколько слов из словаря Даля люди реально употребляют в поисковых запросах. О результатах проверки читайте в исследовании «Русский язык в словаре Даля и поиске Яндекса», а здесь мы расскажем, почему сравнение слов из словаря со словами из поисковых запросов — не совсем тривиальная задача.

О словаре Даля

Первое издание «Толкового словаря живого великорусского языка» В.И. Даля вышло в 1863–1866 гг. Словарь не является нормативным: его далеко не всегда можно использовать для ответа на вопросы «как пишется то или иное слово» и «что значит то или иное слово». Зато он представляет собой уникальный справочник по живому разговорному языку XIX века. Его можно читать не как словарь, а просто подряд. Поисковые запросы содержат в том числе и разговорную лексику, так что сравнив слова из словаря и слова из запросов, можно увидеть, что изменилось за 150 лет.



Количество слов в словаре Даля обычно оценивают приблизительно — около 200 тысяч. Это слова, для которых дано толкование, — сам Даль называл их «красными». Красные слова организованы в гнёзда. В словаре насчитывается немногим более 40 тысяч гнёзд и, соответственно, гнездовых слов.

Обработка слов из словаря

Выбрать гнездовые слова можно без проблем, однако выделить полный словник сложнее — красные слова находятся внутри словарных статей, а иногда даже внутри предложений. Часть слов приведены в словаре не полностью: так, многие возвратные глаголы обозначены только частицей -ся после соответствующего невозвратного глагола — здесь, например, это глагол «брошюроваться»:

Статья в словаре. «Брошюра» — гнездовое слово; «брошюрный», «брошюровать», «брошюроваться», «брошюрование» и «брошюровка» — красные слова.

Мы использовали электронную републикацию словаря на основе 2-го издания. Все слова, для которых дано толкование, в нём записаны полужирным курсивом — их мы и достали. Слова, записанные не целиком, не учитывали.

Обработка запросов

С ноября 2015 по октябрь 2016 года поиск Яндекса ответил примерно на 70 миллиардов запросов. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов — в 1425 раз больше, чем в словаре Даля.

Понятно, что далеко не всё из этого действительно слова. Пользователи время от времени допускают ошибки и опечатки, забывают переключить раскладку, а иногда просто вводят в поиск случайные последовательности букв.

Примеры запросов с «ненастоящими» словами: [детский мир отзовы] — ошибка в написании; [нщгегиу] — неправильная раскладка; [аааааааааааааау] — бессмысленная последовательность букв.

Чтобы уменьшить погрешность при сравнении, мы решили использовать также Национальный корпус русского языка. Это собрание русскоязычных текстов в электронной форме, причём их состав сбалансирован: они подобраны таким образом, чтобы отражать разные типы и стили. Можно сказать, что корпус представляет русский язык на текущем этапе существования.

Мы взяли весь корпус с начала XX века, за исключением подкорпусов с бытовыми текстами, электронной коммуникацией и рекламой — в них, как и в поисковых запросах, часто встречаются ошибки и несуществующие слова. Всего в корпусе оказалось 840 тысяч слов, причём 88 тысяч из них не встречаются в поисковых запросах:  это некоторые топонимы и слова, выдуманные различными писателями.

Анализ

Итак, у нас есть списки слов из словаря Даля, поисковых запросов и корпуса русского языка,  но просто пересечь их и посмотреть на результаты недостаточно. Одна из главных проблем — омонимия: слово может писаться одинаково, но иметь в словаре Даля и в поисковом запросе совершенно разные значения.



Чтобы учесть омонимию, мы разделили слова из словаря Даля на несколько групп в зависимости от их частотности в поиске и от того, есть ли они в корпусе, и вручную проверили небольшие выборки из каждой группы.

Понятно, что те слова, которые очень часто — более 100 тысяч раз — встретились в запросах, но отсутствуют в корпусе, с наибольшей вероятностью являются омонимами. Те слова, которые в течение целого года искали всего один-два раза, скорее всего, относятся к уходящим или ушедшим. Чтобы уточнить, к какой именно группе относится слово, понадобились дополнительные проверки. Мы посмотрели, в каких поисковых запросах и в каких контекстах в корпусе встречались слова, и что Яндекс отвечает на запросы, в которых они присутствуют, — то есть как они представлены в интернете. В результате окончательно определили доли вышедших из употребления, уходящих и до сих пор использующихся слов из словаря Даля.



Ссылки

Исследование «Русский язык в словаре Даля и поиске Яндекса» — расскажет о живых, уходящих и ушедших словах из словаря В.И. Даля.

Интерактивная карта «Региональные слова из словаря Даля» — покажет слова из словаря, характерные для разных регионов России.

Тест «Угадайте значение слова» — поможет проверить, отличаете ли вы маламзю от фалбалы, а журапки — от кабатеек.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 180
Рубрика: Hi-Tech
(CY)

Архив новостей / Экспорт новостей

Ещё новости по теме:

18: 40
Конструктор сайтов Wix приобрёл творческое сообщество DeviantArt за $36 млн |
18: 40
Доход Fitbit за квартал составил 574 млн долларов, за 2016 год в целом — 2,17 млрд долларов |
18: 20
У смартфонов Pixel снова проблемы |
18: 20
В Китае появились дроны с огнеметами |
18: 00
Полет дрона над огромным водосбросом |
17: 20
Европа даёт скидку 20% на любой iPhone. Как её получить? |
16: 40
Пользователи новых MacBook Pro жалуются на проблемы с клавиатурой |
16: 40
Как сделать игровой автомат: мастер-класс от "Королевы идиотских роботов" |
16: 20
Deutsche Bank: не ждите чуда от нового iPhone |
15: 00
Momo Mirage: гибрид «Феррари» и «Роллс-Ройса» |
14: 20
Эван Блэсс опубликовал характеристики смартфона Samsung Galaxy S8+ |
14: 20
Все готово для появления смартфонов с наэкранным сканером отпечатка |
14: 00
Швейцарский электрокар разгонится до 100 км/ч за 2,3 секунды |
13: 20
Samsung представила мощный 10-нанометровый процессор Exynos 9 Series 8895 |
12: 40
Солнечные батареи, сканер штрих-кодов, оплата отпечатками: семь масштабных стартап-провалов — Михаил Смолянов изучил отчёт CB Insights, посвящённый самым дорогим закрывшимся проектам |
12: 40
Великая битва: что лудше iPhone 7 или Samsung Galaxy S7 Edge? |
12: 40
По подсчетам JPR, за год доля AMD на рынке 3D-карт выросла с 21,6% до 29,5% |
12: 40
Опубликованы первые фотографии смартфона Xiaomi Mi6 |
12: 20
Конференц-зал в новой штаб квартире Apple Park назовут в честь Стива Джобса |
12: 00
Культура Чако: в Северной Америке власть контролировали женщины |
12: 00
Tesla не смогла стать прибыльной по итогам четвёртого квартала 2016 года |
12: 00
Характеристики Samsung Galaxy S8 Plus утекли в Сеть |
11: 00
Доход HP за минувший квартал составил 12,7 млрд долларов |
10: 20
Можно ли покупать iPhone 5s в 2017 году |
10: 20
Официальная сумма сделки между Fitbit и Pebble оказалась на $17 млн меньше предполагаемой |
10: 00
Пользователи новых MacBook Pro сообщают о проблемах с клавиатурой |
09: 20
В Сети доступны новые живые снимки флагманского смартфона Samsung Galaxy S8 |
07: 40
Apple представила красочный видеоролик нового кампуса Apple Park |
07: 00
Apple выкупила домен iCloud.net, закрыв одноимённую социальную сеть |
07: 00
Неизменность человеческой личности - это миф |
18: 00
Apple представила новый кампус Park, открытие в апреле |
Новости бизнесаСтатьиАналитические колонкиДеньгиКурс валютБизнес технологии
Rating@Mail.ru
Условия размещения рекламы

Наша редакция

Обратная связь

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Skype: rosinvest.com (Русский, English, Zhōng wén).

Архивы новостей за: 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003

Июнь 2012: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30