Запрос для парсинга много текста

warning: array_key_exists() [function.array-key-exists]: The second argument should be either an array or an object in /home/vovanmozg/data/www/vovanmozg.com/b8cde22d0398e1ef9dcb7c8a5f929c98/sape.php on line 395.
vovan, 18 сентября 2009, 01:41 Рубрики:

Давеча потребовалось мне получить RSS -ленту записей из блогов. Тематика не важна, главное чтобы постов было побольше. На помощь пришли исследования лингвистов и поиск по блогам Яндекса.

Запрос состоит из слов, которые находятся в самом начале списка из 5000 наиболее частотных русских слов (исключая некоторые короткие слова, например, предлоги). Это значит, что в подавляющем большинстве текстов содержится хотя бы одно из указанных слов, и, следовательно, данный запрос покроет большое количество текстов.

(быть|весь|они|сказать|этот|который|мочь|человек|один|еще|бы|такой|
только|себя|свое|какой|когда|уже|вот|кто|говорить|год|знать|мой|время|
рука|нет|самый|стать|большой|даже|другой|наш|свой|где|дело|есть|сам)

Готовая RSS- лента:

Яндекс немного тупит от такого громоздкого запроса, но результат выдаёт, ведь он всё-таки солидный поисковик.

Несколько способов определения позиций сайта в поисковиках

donation bar

Добавить пост в:
Добавить на Habr

Димок, 14:56, 3 ноября 2009

Здорово!

Единственный минус. Не ясно как спарсить весь объем. Тк Яндекс отдает только 1000 :(

vovan, 23:53, 4 ноября 2009

Ну тогда нужно разбить этот запрос на несколько. Или другими способами уточнять запрос.

Seo, 21:11, 1 сентября 2010

У меня сейчас прогон по каталогам дает максимум ТИЦ 10 и PR 1-2

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.

Подробнее о форматировании

КАПЧА
Защита от людей
2 + 4 =
Решите эту простую математическую задачу и введите результат. То есть для 1+3, введите 4.