вторник, 27 июля 2010 г.

Индексы цитирования сайтов Рунета

Цели, задачи и методы

На сегодняшний день авторитетность веб-сайта является очень важной его характеристикой: от авторитетности зависят позиции в выдаче поисковых систем, рекламные поступления сайтов и многое другое. Предложенная Google модель авторитетности сайта основывается на индексе цитирования: чем больше ссылаются на сайт, тем он авторитетнее и тем больший вес имеет ссылка с него на другой сайт.

Информацию об индексе цитирования можно получить непосредственно от поисковых систем:

  • Google – доступны данные Google PageRank (PR) в виде целого числа от 0 до 10. Предположительно, значение PageRank непосредственно используется Google при ранжировании результатов. Google PageRank рассчитывается для каждой страницы (документа) интернет-сайта.
    Предположительно, величина PageRank является логарифмической т.е. увеличение ее на единицу означает рост цитируемости на порядок (возможно, двоичный).
  • Yandex – доступна величина тИЦ (тематического Индекса Цитирования). По словам представителей Яндекса, тИЦ не влияет непосредственно на ранжирование в результатах поиска, с другой стороны в описании тИЦ указано, что попытки манипулирования им рассматриваются как манипулирование выдачей. тИЦ рассчитывается для отдельных сайтов (или для крупных разделов сайтов, описанных в Каталоге Яндекса). При расчете тИЦ используются только ссылки с сайтов, проиндексированных Яндексом.
    Судя по разбросу значений тИЦ, тематический индекс цитирования является суммой весов отдельных ссылок, не подвергнутой нелинейным преобразованиям.
  • Webalta – доступна величина Webalta Rating (WR), правда принципы его расчета не опубликованы, что делает его неинтересным для настоящего исследования.

Задачами настоящего исследования были:

  • Изучить распределение значений индексов цитирования для сайтов Рунета, покрываемых проектом Черный квадрат.
  • Проверить гипотезу о том, что различные методики подсчета дают хорошо скоррелированные результаты.

Данные

Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня в TLD .RU и .SU. Список доменов был зафиксирован на момент начала исследования (24 сентября 2006 года) – 477494 сайта, отвечающих следующим условиям:

  • сайт имеет имя http://www.domain.ru(su) или http://domain.ru(su).
  • сайт успешно ответил на HTTP-запрос к головной странице;
  • сайт не является зеркалом другого сайта в доменах RU/SU.

Получение Google PageRank производилось до начала массового пересчета индекса цитирования, которое началось 28-29 сентября 2006 г. Получение тематического ИЦ Яндекса производилось в начале октября 2006 г. для того же списка доменов.

Google PageRank в Рунете

Определение Google PageRank производилось путем запроса к toolbarqueries.google.com. В случае, когда у www.site.ru и site.ru были разные PR, бралось большее значение. Далее в тексте Toolbar PageRank, PageRank и PR употребляются как синонимы.

Распределение величины Google PR для отобранных доменов выглядит следующим образом:

Google PageRank Количество сайтов
9 1*
8 13
7 136
6 1 197
5 7 185
4 27 883
3 60 186
2 67 405
1 48 221
0 265 268

* единственный сайт с PR=9 был создан специально для накачки PR как зеркало сайта php.net. После октябрьского пересчета Google индекса цитирования Google он имеет PR=3

Считается, что величина PageRank, отдаваемая Google в виде целого числа в диапазоне 0-10 — это логарифм истинного значения PageRank, используемого при ранжировании.

Анализ распределения PR по сайтам

Построим график в координатах PR/количество сайтов. По горизонтальной оси – Toolbar PageRank (уже логарифмическая величина), по вертикальной – логарифм количества сайтов с таким PR:

бычное для WWW-страниц распределение цитируемости выглядит в логарифмических координатах как прямая линия (см статью о видах сетей, где примеры зависимостей подробно разбираются), однако для головных страниц сайтов Рунета получается зависимость, характерная для цитирования в научных работах: значительно меньшая доля документов с экстремально низкими индексами цитирования. В обоих случаях изменение вида распределения может быть объяснено самоцитированием (ученые ссылаются на собственные работы, вторые страницы сайтов – на головную страницу).

Шум в области PR 0—2 объясняется, по всей видимости, округлениями величины PR после логарифмирования (см. ниже раздел об индексе цитирования Яндекса). Несмотря на шум, полином второго порядка (в логарифмических координатах) описывает получаемые данные с коэффициентом корреляции 0.98.

Яндекс.тИЦ

Тематический индекс цитирования Яндекса (далее в тексте ТИЦ) был получен путем ручного просмотра всех 477494 сайтов браузером с установленным Yandex.Bar (лицензия Яндекса запрещает автоматическое обращение к их сервису). Работу выполняла тысяча китайцев, которые разделили черный квадрат на подквадратики и честно их прокликали.
272969 сайтов (из рассматриваемых 477494) имеют ТИЦ менее 10, остальные значения ТИЦ лежат в диапазоне от 10 до 110000. Для удобства сравнения с Google PR, данные были разложены на 9 логарифмических классов по формуле: Lcy = ROUND(ln(cy)/1.375),1)

.

Распределение величин ТИЦ для рассматриваемых сайтов выглядит следующим образом:

Класс (logCY) Диапазон значений ТИЦ Количество сайтов
8 59 880—236 800 2
7 15 140—59 870 34
6 3 830—15 130 298
5 970—3 820 3 730
4 250—960 26 098
3 70—240 58 308
2 20—60 75 147
1 10 40 908
0 <10 272 969

Из таблицы видно, что логарифмирование исходно-линейного индекса цитирования приводит к шуму в области малых значений. В то же время, распределение сайтов по логарифмическим классам практически точно повторяет аналогичный график для PageRank (см. ниже).

Корреляция ТИЦ и PR

Выведем на график в логарифмических координатах одновременно распределение сайтов по PR и по логарифму ТИЦ.

Как видно из графика, для первых пяти (из девяти) логарифмических классов, имеется практически точное совпадение функций распределения (сайтов по классам). Это позволяет утверждать, что Toolbar PageRank получен путем логарифмирования целых значений индекса цитирования, а шум в области малых значений вызван, в первую очередь, ошибками округления.

В области высоких значений индекса цитирования два графика распределения значимо расходятся (на диаграмме приведены графики полиномов второго порядка, описывающих, соответственно, распределение сайтов по PR и по ТИЦ, каждый из них имеет коэффициент корреляции с исходными данными на уровне 0.98). Как мы видим, количество сайтов с высоким ТИЦ падает быстрее, чем количество сайтов с высокими значениями PR. Это может объясняться рядом причин:

  • Google строит индексы цитирования по всем WWW-страницам, а Яндекс – только по русскоязычному подмножеству. В результате, максимальный индекс цитирования по Яндексу будет меньше.
  • Google учитывает все сайты одинаково (в соответствии с их весом, полученным при расчете PageRank). ТИЦ, согласно описанию учитывает тематическую близость. Тематическая близость, по всей видимости, определяется близостью рубрик каталога Яндекса. Таким образом, отсутствующий в каталоге сайт имеет меньше шансов получить высокий ТИЦ. При этом:
    • около половины сайтов с PR>4 отсутствуют в каталоге Яндекса;
    • но 3/4 сайтов с ТИЦ > 1000 присутствуют в каталоге.

    Другими словами, получить высокий ТИЦ труднее, чем высокий PR, а следовательно почетнее.

Медианные значения ТИЦ

Для сайтов с положительными PR и ТИЦ (всего таких сайтов 162941) была построена таблица медианных значений ТИЦ для заданного PR:

PR кол-во сайтов с ТИЦ>0 Медианное значение ТИЦ
8 11 900*
7 114 1 400
6 1 066 750
5 6 411 350
4 24 609 160
3 50 929 80
2 50 618 40
1 29 183 20

* Данных по сайтам с PR=8 недостаточно для рассчета статистически-достоверного значения медианного ТИЦ

Сравнивая данные индексов цитирования конкретного сайта с данной таблицей можно определить «международность» или «рунетность» данного сайта: у «более рунетного» сайта ТИЦ будет больше медианного.

Выводы

  • Логарифмичность Google Toolbar PageRank можно считать доказанной.
  • Высокий ТИЦ встречается в Рунете реже высокого PageRank, а значит высокий ТИЦ почетнее.

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

Воротай обратно!

С помощью тех. поддержки хостинга вернул сайт обратно. :)

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

пятница, 23 июля 2010 г.

Стырили сайт, эх…

Две недели я занимался выбором подарка ко своему дню рождения. Две недели я создавал планы для августовского отдыха. Две недели я не проверял свой сайт, посвященный экономике, две недели я не проверял почту, привязанную к этому сайту. Как результат украденный ресурс. Сайт оффлайн, нет доступа к БД, нет доступа в админку. Писмо в ТП написано. Я думаю доступ над аккаунтом, бд, фтп, я верну, восстановлю сайт из бэкапа, но столь яростного желания вести сайт на эту тематику уже нет. Заметив, что сайт взломан, меня посетили неоднозначные чувства, ни паника, ничего. Я только задумался, а для чего нужен этот сайт? О экономике сейчас полно сайтов, дофигища электронных библиотек, просто дохрена информации, обогнать гигантов я не смогу (просто не хватит времени + не могу вкладывать огромных денег в раскрутку). В общем пока не вернул доступ к сайту решил подумать над его будущем. Может придумать новый проект или новую идею. Да ещё и одному делать уже надоело, слишком много времени уходит….

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

четверг, 22 июля 2010 г.

Проблема ночи.

Сегодня ночью блог упал, проблема решена не полностью, но работоспособность сайта восстановлена. Извиняюсь за неудобства. После полного излечения причины выложу отчет.

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

среда, 21 июля 2010 г.

Проверка на пригожесть.

Для проверки пригодности базы прогоню первым 5-рым желающим сайт по allsubm 4.7 по базе из 8592 каталога. Желательно конечно сайт с нулевыми показателями и домен второго уровня…

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

Отчет заработка с Sape.

Решил сегодня выложить отчет по заработку за прошедший месяц (ровно). Я уже рассказывал о том, как гугл ни с того ни с сего одному из моих сайтов дал 2 ПР, ну я и решил повесить его в сапу, поставил автоуправление (ибо лето и мало нахожусь дома). В общем отчет:

Попробую немного подкорректировать цены, изменить на ручной режим и проследить результат -)

На сегодня всё, в следующий раз планирую выложить собранную мной базу для сабмитера.

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

вторник, 13 июля 2010 г.

Свойство Apple.

Толчком к написанию этой статьи послужило открытие второго официального магазина Apple в Китае. Цитата: «В конце прошлой недели компания Apple открыла в Шанхае новый магазин. Он расположен в финансовом районе Пудонг (Pudong) на восточном берегу реки Хуанпу (Huangpu), протекающей через центр города. Это второй фирменный магазин американской компании в Китае — первый был открыт в 2008 году в Пекине как раз перед началом летних Олимпийских игр.» На сколько все знают Китайцев очень много. И открытие второго официального магазина в финансовом районе Китая сыграет не маловажную роль в будущем компании Apple. Посмотрев на миниатюру этого поста мы можем увидеть красивейший стенд с изображение Apple, который возвышается довольно высоко над землей, тем самым показывая своё превосходство.

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

среда, 7 июля 2010 г.

Люди вместо нас (Twite).

Удобней всего, чтобы люди работали вместо нас. Когда я только начинал задумываться о «копеечки с интернета» я вел полемики с друзьями. И в то время один мой друг дал мне дельный совет: «Найди кучу школьников и пусть они работают на тебя за 5 копеек!» Прочтите эту фразу еще раз и попробуйте провести аналогию с известными на сегодняшний день интернет ресурсами. Взять тот же vkontakte, odnoklassniki, социальные сети, и т.д… Чем они берут? Они создали платформу, которая» порабощает умы людей». Эти платформы привлекают все больше и больше людей (пользователей), тем самым юзеры сами раскручивают проект. Просто замечательный маркетинговый ход… На эту тему можно долго рассуждать.

Сейчас много блоггеров, вебмастеров и дизайнеров подключают твиттер аккаунты к своим сайтам и блогам. Да это приведет читателей на ваш сайт, но ведь большая часть пытается извлечь выгоду из своих твиттер аккаунтов, тем самым выискивая разные способы заработка на твиттер аккаунтах. Забредая на ресурсы подобны twite.

Прежде чем суваться в какой-то подобный ресурс убедитесь не является ли он лохотроном. Твит это прямой лохотрон, они не позволяют вам выводить деньги из систем.

Пожалуйста думайте головой прежде чем пробовать тот или иной сервис…

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru

Allsubmiter + базы.

Занялся раскруткой своего блога (этого сайта). К каждому шагу раскрутки буду прилагать отчет по проделанной работе.

Начал с allsubmiter’a + базы.

Что это за программа и с чем её едят? –  Это софт для раскрутки веб проектов. Позволяет регистрировать ваш сайт в разных каталогах как в автоматическом так и ручном режимах. Удобство в том, что вы можете найти\собрать свою собственную базу каталогов, отсортировать по нужному вам показателю и прогонять по ней сайты. Это эффективно, надежно, удобно, практично.  Хочу сказать сразу: «Не стоит зацикливаться на одной лишь этой программе». Нужно всегда совершенствовать методы раскрутки, добавлять новые этапы, новые рубежи….

Собственно сам сабмитер и две базы: июньской сборки этого года и чуть постарей. С первой базы я получил 1000+ успешных с автоматической реги со второй 1300+ успешных.

К сабмитеру прилагается кряк, версия программы 4.7. На данный момент полностью крякнутой 5-й версии нет.

Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru