Коллекции загружаются
#гарри_поттер_и_анализ_фандома #ГП #фанфикс #картинки_в_блогах
Всем привет, я студент-второкурсник, который увлекается анализом данных и фанфиками. Вчера я скачал 18 704 законченных фанфика по Поттериане и некоторые данные о фанфиках. Теперь у меня много, много, очень много материала... Но о содержании фанфиках позже, для начала я хотел бы рассказать (если, конечно, в коде нигде не накосячил, что маловероятно, так как результаты выглядит вполне убедительными) о более простых вещах: просмотры, читатели, комментарии и рекомендации. Итак, есть 4 категории: гет, джен, слэш, фемслэш. Для каждой из категорий я просто суммировал значения. Больше всего просматривают гет, 189 986 162 просмотра. Читают активнее всего слэш, 3 474 808 читателя. Самым комментируем оказался джен - 383 245 комментариев. А по рекомендациям лидирует гет с 15 474 рекомендациями. (сочувствую фемслэшу) Также предоставляю графики с более подробной информацией: Все информация актуальна на 16.10.2021 17 октября 2021
16 |
МакКей
Я это делаю для практики, чтобы учиться на чем-то более интересном. Ну а раз уж у меня есть готовый материал, то почему бы тут об этом не рассказать? Feature in the Dust Посмотрю, попробую, идеи нравятся ansy Тоже попробую реализовать в будущем 1 |
Mikunu
Еще вам идей для "тренировки на кошках" (ну вот что сразу в голову приходит) - сравнить жизненные циклы - тоже отдельно для многоглавных работ, отдельно - для мини и отдельно - для конкурсных (потому что жизненный цикл конкурсных работ в первую неделю публикации сильно отличается). Сравнить изменения в жизненном цикле по годам. Выявить или подтвердить отсутствие влияния длинных государствннных выходных на жизненный цикл в первые дни публикации. |
Feature in the Dust
Мысль интересная, постараюсь реализовать) |
Mikunu
Еще можно добавить пару производных показателей, типа отношение кол-в читателей к просмотрам. Вот только основной минус анализа 18 тысяч работ в том, что при дроблении выборки станут столь малы, что построение гипотез превратится в лекарство от скуки: в учебных целях использовать можно, но достоверность выводов будет плюс-минус пол-лаптя. :)) |
Feature in the Dust
Увы :с Но больше тут по ГП нет законченного. Но в принципе, хоть какую-то информацию это должно дать Но вообще, я изначально не планировал это всё анализировать, это получилось спонтанно хд Целью было посидеть над содержимым фанфиков, но вот с этим пока некоторые проблемы, потому выложил то, что поддалось анализу легче |
Feature in the Dust
Ага! И не только. Хотелось бы попробовать поработать с машинным обучением с датасетом из фанфиков, благо возможность есть |
Mikunu
А вы, кстати, видели уже посты wlana по тегу про_автора ? Там, мне кажется, можно много интересного подчерпнуть с точки зрения подходов к анализу текстов. |
Feature in the Dust
Как мне кажется по моему довольно скромному опыту, реализовать такое в коде мне будет достаточно сложно. По крайней мере учитывая контекст |
Mikunu
Ну да, формализовать подобный разбор непросто. Но если использовать эти примеры не в лоб, а просто как направление идей, то может получится достаточно интересно. Или не получится. Но, с другой стороны, для получения опыта достижимость цели не столь важна. :) |
Feature in the Dust
Как направление идей вполне можно, я подумаю над этим. Но в любом случае это нескоро, идей сейчас накидали очень много и по некоторым ещё нужно почитать теорию |