Компания Яндекс в своем блоге рассказала об очередном новшестве в результатах выдачи. Главный поисковик рунета сообщает о более удобном для российского пользователя представлении мультиязычных сайтов в поисковой выдаче. В большинстве своем речь идет о ресурсах, существующих в интернете в двух версиях – русскоязычной и англоязычной.
Яндекс относительно недавно начал индексировать зарубежный интернет и, чтобы в выдаче не появлялись чуждые глазу неподготовленного российского интернет-пользователя заголовки и сниппеты, поисковик внедрил ссылку «Эта страница на русском», являющуюся, по мнению Яндекса, линком на переводной документ, представленный на этом же сайте.
Процесс нахождения переводных страниц происходит в автоматическом режиме и основан на теории вероятности. Поисковые алгоритмы сканируют внутреннюю структуру сайтов и выявляют страницы, которые похожи на парные. Далее идет сравнение текстов этих страниц, и, если парные предложения в этих текстах с большой долей вероятности являются переводными, то поисковик считает контент таких страниц одинаковым. Разным остается лишь язык текстов. Лингвистические возможности Яндекса настолько велики, что практически со 100%-й уверенностью алгоритм находит парные документы.
Кроме того, в этой технологии Яндекс использует классификаторы, позволяющие с ещё большей точностью определять двуязычные документы:
en/eng/US – документ на английском языке;
ru/RU/rus/ - документ на русском языке.
Сообщается, что выбор языка документа функционирует у пользователей, настроивших русский язык интерфейса на yandex.ru.
Дополнительная информация: