Google начал поддерживать Unicode 5.1

Вторник, 6 мая 2008 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Google начал поддерживать стандарт Unicode версии 5.1, практически сразу же после его официального принятия 4 апреля этого года. Unicode 5.1 поддерживает более 100 000 символов и обеспечивает отображение текстов для подавляющего большинства языков мира: в последнюю версию добавлена поддержка символов ряда языков Индии и Юго-Восточной Азии, а также арабского, тамильского письма и других. Теперь осуществлять поиск в Google, используя родную письменность, смогут люди, говорящие на таких языках, как, например, малайский.

На веб-сайтах может быть использованы различные системы кодировки, такие как ASCII, Latin-1, Windows 1252 или Unicode. Большинство кодировок могут поддерживать отображение символов на ограниченном числе языков, и только Unicode обеспечивает самую широкую поддержку языков - от французского до китайского и арабского. Как сообщается в новости на официальном блоге Google, Unicode уже давно использовался поисковым гигантом как внутренний формат для всех видов текстового поиска: все прочие кодировки сначала переводились в Unicode и потом обрабатывались. Google регулярно отслеживает обновления стандарта Unicode и связанных стандартов, таких как CLDR и BCP 47, и предпринимает соответствующие обновления для того, чтобы быть всегда на переднем крае технологий кодировок. Таким образом, Unicode играет для Google ключевую роль.

В декабре прошлого года исследователи Google зафиксировали, что в первый раз в Сети самой распространённой кодировкой стала именно система Unicode, обогнавшая по популярности ASCII и западноевропейские кодировки. Рост популярности Unicode крайне динамичен (на графике рост использования Unicode показан синей линией). На графике видно, что количество веб-страниц в кодировке ASCII (неакцентированные буквы от A до Z) неуклонно снижается. Также недавно отмечено и снижение использования в Сети кодировок, поддерживающих только буквы западноевропейских языков (ASCII и некоторые акцентированные буквы, такие как A, C, O). Также Google отмечает и уменьшение применения кодировок, специфичных для отдельных языков. Unicode, с другой стороны, используется всё больше и рост его популярности весьма велик.

Приведённые данные основаны на результатах анализа проиндексированных Google веб-страниц, но в любом случае налицо тенденция, что Unicode может вскорости стать превалирующей кодировкой в Сети, и Google будет этой тенденции следовать и оказывать ей поддержку.

© Cyberstyle.ru по материалам GoogleBlog

Следите за нами в ВКонтакте, Facebook'e и Twitter'e