uncle Crassius: ReFeRy Выложи плиз исходники Ф2Ф на github, если не жалко, конечно. Мы конечно уже пользуемся https:

ReFeRy
Выложи плиз исходники Ф2Ф на github, если не жалко, конечно.
Мы конечно уже пользуемся https://github.com/p0ody/ff2ebook но там не все есть.

6 ноября 2019

Отключить рекламу

17 комментариев

ReFeRy

6 ноября 2019

Я задолбаюсь ваять из него отдельное приложение, все скрипты плотно завязаны на фанфикс, от авторизации до БД.

Вот основные скрипты парсинга шапок и глав: https://pastebin.com/5RGemsi4
Там где-то полный трэш, где-то более-менее код, где-то комментарии от кэпских до важных.

	uncle Crassius 6 ноября 2019
ReFeRy Ми-ми-ми, спасибо, будем пилить :)

	Wave 6 ноября 2019
Мдя, парсить лапше-html регэкспами — это боль. 1

Wave

6 ноября 2019

Реф, есть неплохая библиотека для парсинга html: DiDOM (а также всякие phpQuery и simplehtmldom). Есть штатный класс DOMXPath. Это я так, на будущее и на всякий случай подкидываю.

Потребления памяти (в байтах)
Максимальное

Nokogiri — 763568
DiDom — 793096
Zend Dom — 954712
DomCrawler — 1534512
Simple HTML DOM — 16839400

В конце теста

Nokogiri — 157168
DiDom — 158896
Zend Dom — 329232
DomCrawler — 567440
Simple HTML DOM — 14113456

Затраченное время (в секундах)

DiDom — 27.0787
Nokogiri — 27.1009
DomCrawler — 36.0982
Zend Dom — 48.3222
Simple HTML DOM — 188.0247

О скоко их разных.

	ReFeRy 6 ноября 2019
Wave Это что за тест? Цифры страшные. У меня бывало, что ФвФ за день по 20000 произведений обновлял - в одном потоке и незаметно для работы всех сайтов на том же сервере. Или тут время на 100 или там 1000 циклов?

	Wave 6 ноября 2019
На тест я не посмотрел, я просто случайно ухватил краем глаза и скопипастил ради перечисления библиотек на пыхе, предназначенных для парсинга html. Зы. DomCrawler — это компонент Симфонии.

Wave

6 ноября 2019

Ага, это как раз
https://github.com/Imangazaliev/DiDOM/wiki/Сравнение-с-другими-парсерами-(1.6.3)

Условия тестирования:

Все парсеры устанавливаются через менеджер пакетов Composer
Задача парсеров - получить из HTML все элементы по определенному селектору и вывести их текстовое содержимое

Парсить будем заголовки постов Хабра (habr.com). Всего нужно обработать 1000 файлов размером чуть больше 100 kb, общий размер всех файлов составляет приблизительно 130 Mb, все файлы пронумерованы от 0 до 999.

Код для тестирования: […]

В любом случае, удобней какой-нить подобной библиотекой выдирать по DOM, чем парсить регекспами. Имхо, разумеется.

ReFeRy

6 ноября 2019

Wave
Библиотек хватает, но их преимущества... а так и не понял :)
Возможно, преимущества очевидны тем, кто так и не осилил синтаксис регулярок. В остальном же - любой редизайн или перестановка элементов ломает, что регулярку, что парсер на библиотеке. По скорости работы, возможно, на миллионах циклов будет существенная разница и то не факт, что в пользу библиотек, ибо я беру из страницы только то, что мне нужно, а библиотека обязательно разбирает всю структуру каждой страницы - все менюшки, весь дизайн. Вот красота и понятность кода, тут первенство за библиотеками, но мне важнее выполнение задачи, а в собственном коде я уж разберусь, когда надо будет что-то изменить.

Wave

6 ноября 2019

Как будто перестановки и редизайн не ломают разбор регулярками. Если глянуть на подобный ужас:

if (preg_match('/<td style= \'font-variant:small-caps;\'> Автор:<\/td><td>(.*?)<\/td>/ius', $fic['head'], $matches2))

Не, я тебя понимаю, дубовые простые надёжные способы — наш бро. Но ты сам писал когда-то, что когда устраивался на работу и сказал на собеседовании, что не владеешь даже ООП, с тебя офигели и не поняли, зачем ты вообще туда пришёл. И т.д.

ReFeRy

6 ноября 2019

Wave

Но ты сам писал когда-то, что когда устраивался на работу и сказал на собеседовании, что не владеешь даже ООП, с тебя офигели и не поняли, зачем ты вообще туда пришёл. И т.д.

Год назад. Тимлид так растеряно отложил листочек с вопросами и сказал, что даже не знает, о чем меня тогда спрашивать. Хорошо, что кроме него там же был более опытный товарищ - поговорили о моем опыте и навыках. Через три дня я вышел на работу, у них оказалось очень много работы именно для меня, а не для современных джунов, знающих только фреймворки.

	Wave 6 ноября 2019
То есть, ты всё-таки будешь отрицать полезность использования ООП, паттернов, средств командной разработки, деплоя, тестирования, контроля версий и тому подобного?

	ReFeRy 7 ноября 2019
Wave Конечно, нет. Я лишь считаю, что в некоторых случаях можно всё это и не использовать.

Styx

7 ноября 2019

Ого, что я пропустил. Склонил себе, на всякий случай.

ReFeRy, преимущество использования библиотек для парсинга DOM в том, что они не сломаются, если в разметку добавятся новые аттрибуты, например, а твоя регулярка — сломается. Да даже вон из примера выше, если шрифт изменят, то работать регулярка твоя уже не будет.

ReFeRy

7 ноября 2019

Styx
Тут все очень спорно, поменять можно много что. Регулярки тоже можно по-разному писать. Я особо не заморачивался. Собственно, вы оба похоже невнимательно прочитали тот мой комментарий - я не писал, что регулярки устойчивее к изменениям кода, я писал, что библиотеки не имеют в этом отношении особого преимущества.

ReFeRy

7 ноября 2019

преимущество использования библиотек для парсинга DOM в том, что они не сломаются, если в разметку добавятся новые аттрибуты, например, а твоя регулярка — сломается.

Как будто через библиотеку всегда получится выбирать элементы... как? По содержимому - далеко не всегда и не оптимально. По id - очень редко они есть и тоже легко могут быть изменены. Шрифт на сайте меняется куда реже, чем добавляются просто новые элементы на страницу или перемещаются имеющиеся.

	Styx 8 ноября 2019
ReFeRy, xpath, например. А шрифт может и не меняться, может пробел добавиться, или точка с запятой убраться — и всё, регулярка уже не работает. Они вообще не совсем для этого. 1

	Жопожуй Конидзэ Онлайн 15 декабря 2025
https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

	Samosa Автор 1
	Nerevishl Автор 1
	Rovelis Автор 2, Иллюстратор 2
	Cofeek100 Автор 1
	Manyasha2603 Автор 1