Lost-in-TARDIS Онлайн
12 июля 2019
|
|
А давайте просто разметим датасет на 1-1.5k шапок по принципу "не открывать ваще/все остальное", все переменные поиска засунем в фичи, в текстовых частях типа саммари выделим повторяющиеся паттерны (ну, в обработке текста тут можно много извращаться) и сунем в какой-нибудь ML классификатор, завалидируем, потом из него feature importance вынем. Ну и заодно получим ключевой компонент машинки, которая из результатов поиска у нас все совсем негодное будет выкидывать.
*это уже профдеформация, походу* 7 |