16.11.2009 Четверть сайтов рунета – поисковый спам Большинство сайтов Рунета (56%) состоит из одной страницы. Такие данные получил Яндекс, исследуя контент российского сегмента Интернета. А четверть сайтов, по оценке Яндекса, не содержат информации, полезной для пользователя: «Они созданы, чтобы привлекать посетителей на другие сайты или влиять на их ранжирование в поисковых системах». 88% текста всего Рунета находится менее чем на одном проценте сайтов. А все текстовые документы Рунета занимают более 140 000 Гб, если не учитывать дублированные страницы. Яндекс определил, что средний сайт Рунета содержит 255 страниц, на которых находится около 159 тысяч слов и менее 10 картинок. А если все слова, опубликованные в Рунете, записать на бумаге, то потом можно сложить из листов куб с длиной стороны основания 26 метров и высотой с девятиэтажный дом. Яндекс, исследуя контент Рунета, сравнил наиболее часто встречающиеся там слова с самыми частотными словами по версии РАН. Оказалось, что и в Рунете, и в словаре самым частым прилагательным является «новый». И вообще среди прилагательных наблюдается высокий уровень соответствия. Самыми частотными существительными в Рунете являются «сообщение», «сайт», «год», «новость» и «телефон». Понятно, что в частотном словаре русской лексики другие первые места. Также Яндекс посмотрел на то, как иностранные слова склоняются к одному из вариантов написания: Доля ошибочных написаний слов, по данным Яндекса, не так велика, но абсолютное количество слов с ошибкой велико: «В масштабах Рунета даже сравнительно небольшая доля ошибок означает огромные числа. 5,78% неправильных написаний слова агентство в Рунете — это 21 миллион агенств». |