Коллекции загружаются
#фанфик_в_файл #СамИздат
Начал тестировать функцию "слежения за продами", то есть автоматической проверки наличия обновлений на СамИздате. Пока что нет никаких оповещений. Просто скрипт каждую минуту запрашивает следующий по определенному порядку текст, проверяет наличие обновлений, если текст обновился, скачивает его и обновляет. Посмотрю на работу скрипта некоторое время. Если все будет хорошо, допилю уведомления/новости. Проверяются обновления только тех произведений, на которые подписан хотя бы один пользователь. Штатная задержка между проверками - сутки. Делать максимально оперативное информирование об обновлении я не собираюсь, кого возможная задержка в сутки не устраивает, тот имеет полное право пользоваться другими средствами. Но это все пока примерно, ибо на данный момент в базе всего около 600 произведений с СИ, у которых есть подписчики. P.S. Тест был остановлен в связи с тем, что у СИ наконец-то появился лог-файл, а я и не знал. 25 сентября 2015
7 |
Ластро
|
|
Да, но эвристика вполне рабочая. :)
|
Но новый кусок текста, на который никто не оставил ни единого комментария, останется на 100% не найденным?
|
Ластро
|
|
Можете проанализировать статистику на своём сайте, основные вспышки комментариев происходят когда обновляется текст. Я не говорю что это единственная причина, но достаточно значимая.
|
Ластро
|
|
ReFeRy, да такие тексты так не найти, кроме того так нельзя увидеть текст отключённый от бороды.
|
Ластро
|
|
А как можно проверить обновление текста не скачивая сам текст?
|
Al Lastor
Это вопрос по СИ или по ФвФ? |
Ластро
|
|
По, СИ. Вы сказали, что проверяется обновление обновление, если оно происходит, скачиваете текст. Я пытаюсь понять, как можно узнать о изменении тексты не скачивая его.
|
Текст скачивается в любом случае. Если текст изменялся, тогда только он парсится весь и обновляется в БД и архивах Фанфикса.
|
Ластро
|
|
А всё понял. Я надеялся, что СИ разрешает не скачивать текст :(
|
Ластро
|
|
ReFeRy, не пробовал так, не знаю, честно.
|
Ластро
|
|
О чём знаю, о том говорю. Своим методом с 08.16 перелопатил 16k произведений, это есть. Не очень много, но и не так уж мало.
|
Где-то есть описание механизма этого самого Базатарановского сервиса?
|
Вообще, парсить надо в первую очередь вот это - логи специально созданы для автоматических систем.
Есть правда нюанс - тот IP, который регулярно запрашивает логи, не должен лазить по остальному СамИздату. 1 |
Опа. Лог это было бы чудесно! Но ограничение на данный момент хреновое.
А ссылочку на описание лога или упоминание этого ограничение для IP не найдете? |
Ага, нашел описание. Про ограничение, правда, там не сказано. Лог появился в июне этого года, ясно почему я про него не слышал еще.
|
Это здесь, включая обсуждения.
Запущено API для обнаружения новинок. С раскладкой по дням http://samlib.ru/logs/2015/06-30.log имя файла|тег oперации|таймштамп-MySQL|title|author |type|janr|annot|date|img_cnt|update-unixtime|size kb Тег операции: EDT - редактирование атрибутов TXT - textedit DEL NEW RPL - поверх старого REN - переименование файла, в скобках новое имя REN(444-2) UNK - операция не определилась Ограничение для IP - это из ленты техкомментов. Впрочем, оно пока заявлено как "ручное" - т. е. Мошков лично следит за активностью по фильтрам. И в техкомментах оповещает о претензиях... PS Каждое слово должно быть не длиннее 50 символов - крайне раздражает. Тег [code] необходим. Хотя бы специальным флагом для определённых тредов подключаемый... 1 |
Так. Ясно. Отключу я пока скрипт, переделаю на парсер логов.
|
Сделал обновление через логфайл. Потестирую такой вариант.
1 |