Запрос для парсинга много текста

vovan, 18 сентября 2009, 00:41 Рубрики:

Давеча потребовалось мне получить RSS -ленту записей из блогов. Тематика не важна, главное чтобы постов было побольше. На помощь пришли исследования лингвистов и поиск по блогам Яндекса.

Запрос состоит из слов, которые находятся в самом начале списка из 5000 наиболее частотных русских слов (исключая некоторые короткие слова, например, предлоги). Это значит, что в подавляющем большинстве текстов содержится хотя бы одно из указанных слов, и, следовательно, данный запрос покроет большое количество текстов.

(быть|весь|они|сказать|этот|который|мочь|человек|один|еще|бы|такой|
только|себя|свое|какой|когда|уже|вот|кто|говорить|год|знать|мой|время|
рука|нет|самый|стать|большой|даже|другой|наш|свой|где|дело|есть|сам)

Готовая RSS- лента:

Яндекс немного тупит от такого громоздкого запроса, но результат выдаёт, ведь он всё-таки солидный поисковик.

Несколько способов определения позиций сайта в поисковиках

donation bar

Добавить пост в:
Добавить на Habr

Димок, 14:56, 3 ноября 2009

Здорово!

Единственный минус. Не ясно как спарсить весь объем. Тк Яндекс отдает только 1000 :(

vovan, 23:53, 4 ноября 2009

Ну тогда нужно разбить этот запрос на несколько. Или другими способами уточнять запрос.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.

Подробнее о форматировании

КАПЧА
Защита от людей
2 + 1 =
Решите эту простую математическую задачу и введите результат. То есть для 1+3, введите 4.