Коллекции загружаются
#интернет_сайты
Создателя вот этого http://fbsearch.ru/ кто-нибудь знает? Претензий у меня нет, просто интересно :) 8 августа 2016
3 |
_I am just a simple russian bear
"В данный момент индекс содержит 4806725 документов." Мне кажется, 20 секунд - это ещё быстро. |
ДНИЩE--ЫЫЫЫ
|
|
Адский Бетономешатель
нет, не быстро. |
ЗА-МЕ-ЧА-ТЕЛЬНАЯ штука!
|
Это я :)
1 |
И тормозов больше там нет.
1 |
Внезапно фанфикс знает всех?
|
Три рубля , фанфикс индексировался, пока в /robots.txt не было "Disallow: /archives/" .
|
Аксфи
Что вы используете, почему для вас стал препятствием robots.txt? Тем более, что указанная директива там числится уже... Кто бы помнил сколько. Давно. |
Робот специально делал, который бы качал с http://www.fanfics.me/archives/fics/txt/ . Сегодня только заметил, что он уже 2 месяца как не работает. Можно конечно и по другому сделать его, но так казалось надёжней. Парсить html как-то не очень хочется. Там всё может меняться слишком внезапно.
|
Вы OPDS случаем не планируете делать?
|
ДНИЩE--ЫЫЫЫ
|
|
Аксфи
А почему бы не перебирать ficID по www.fanfics.me/ download.php?fic=ficID&format=txt ? |
ДНИЩE--ЫЫЫЫ
|
|
Там, правда, есть какой-то большой блок без фиков, но это фигня
|
днище_ыыыы
потому, что с /download.php идёт редирект на /archives/fics/txt/ . А блок без фиков можно и закэшировать, и не перепроверять. |
Раз нет претензий, то сделаю новый робот пожалуй. Но не сегодня.
|
Аксфи
Я в отпуске. Не могу ничего пока на сайте изменить. |
ReFeRy
если не возражаете, то я мог бы сделать игнор robots.txt . Хоть и не очень красиво это. |