Запрос для парсинга много текстаПокупайте «Ежамон»,а то мне приходится занимать на пирожки… Давеча потребовалось мне получить RSS -ленту записей из блогов. Тематика не важна, главное чтобы постов было побольше. На помощь пришли исследования лингвистов и поиск по блогам Яндекса. Запрос состоит из слов, которые находятся в самом начале списка из 5000 наиболее частотных русских слов (исключая некоторые короткие слова, например, предлоги). Это значит, что в подавляющем большинстве текстов содержится хотя бы одно из указанных слов, и, следовательно, данный запрос покроет большое количество текстов. Готовая RSS- лента: Яндекс немного тупит от такого громоздкого запроса, но результат выдаёт, ведь он всё-таки солидный поисковик. Несколько способов определения позиций сайта в поисковиках |
|
Димок, 14:56, 3 ноября 2009
Здорово!
Единственный минус. Не ясно как спарсить весь объем. Тк Яндекс отдает только 1000 :(
vovan, 23:53, 4 ноября 2009
Ну тогда нужно разбить этот запрос на несколько. Или другими способами уточнять запрос.
Отправить комментарий