Mikunu: #гарри_поттер_и_анализ_фандома #ГП #фанфикс #картинки_в_блогах Всем привет, я студент-второкурсник,

#гарри_поттер_и_анализ_фандома #ГП #фанфикс #картинки_в_блогах

Всем привет, я студент-второкурсник, который увлекается анализом данных и фанфиками.
Вчера я скачал 18 704 законченных фанфика по Поттериане и некоторые данные о фанфиках. Теперь у меня много, много, очень много материала...
Но о содержании фанфиках позже, для начала я хотел бы рассказать (если, конечно, в коде нигде не накосячил, что маловероятно, так как результаты выглядит вполне убедительными) о более простых вещах: просмотры, читатели, комментарии и рекомендации.

Итак, есть 4 категории: гет, джен, слэш, фемслэш. Для каждой из категорий я просто суммировал значения.

Больше всего просматривают гет, 189 986 162 просмотра.
Читают активнее всего слэш, 3 474 808 читателя.
Самым комментируем оказался джен - 383 245 комментариев.
А по рекомендациям лидирует гет с 15 474 рекомендациями.
(сочувствую фемслэшу)

Также предоставляю графики с более подробной информацией:

Все информация актуальна на 16.10.2021

17 октября 2021

Отключить рекламу

17 комментариев из 35

Показать ещё 18 комментариев

Заяц Онлайн

17 октября 2021

Altra Realta
Ты можешь отрекламить его в блогах, например.

Но самых хороших, необычных и слишком умных мало читают, так всегда было. Чем больше требования к читателю, тем аудитория меньше. А то что понятно всем... либо это супергений, который пишет историю сразу на нескольких уровнях, либо уникальный сюжет, но намного чаще это стандартный популярный продукт.

А ирония не зря, она делает мир немного веселее ;)

Altra Realta

17 октября 2021

Заяц
Я свое тут уже отрекламил. Хватит с меня, теперь я просто ворчливый пень, который периодически бетит и срется в блогах.
И вообще это я к тому, что выборка, конечно, показательна, но не учитывает степень известности бренда, хех.

	МакКей 17 октября 2021
К чему это надо...нипанятна

Feature in the Dust

17 октября 2021

Для анализа подобной выборки по направленности на основе просмотров/читателей/рек имхо стоит выделить отдельно еще вот такие подгруппы:
1. Высокий рейтинг - для гета и слэша среднее количество просмотров работ такого рейтинга может сильно отличаться от количества просмотров работ низкого рейтинга при прочих равных (пейринге/размере/и т. д. )
2. Размер, статус и активность выкладки: размер имеет значение ;) как минимум на уровне разделения "выложил работу сразу"/"выкладывал работу поглавно некоторое время" - второй вариант может показывать куда большее количество читателей - за счет учета в этом показателе тех, кто выбрал метки "подписаться на новые главы" и "жду окончания". При этом у макси, которые получили статус "заморожен"/"закончен" количество читателей может упасть после смены статуса.
3. Авторство - количество просмотров/читателей работ у авторов с большим количеством подписчиков может сильно отличаться от авторов не из топа. Это особенно хорошо заметно в последний день конкурса - после снятия анонимности.
4. Как выше правильно отметили - выкладка работы в рамках конкурса: конкурсным работам во время голосования гораздо чаще ставят метку "прочитано" и на них в этот период куда активнее пишут реки - опять же можно сравнить изменение этих показателей после снятия анонимности.

Кроме того, у работ, получивших реку или упоминание в блогах от популярных пользователей с большим количеством подписчиков (вот например от Альтры ;)) бдует наблюдатьс всплеск просмотров и небольшой всплеск читателей.

Еще можно к чистым количественным характеристикам (просмотры/читатели/реки) добавить отношение количества меток "понравилось" к общему количеству читателей - т.к. например на конкурсе метку "прочитано" читатель, желающий проголосовать, поставит всем работам номинации - не зависимо от своего отношения к ним, а вот "понравилось"/"не понравилось" - эта мека ставится уже только для самого себя.

Показать полностью

ansy

17 октября 2021

спасибо, очень любопытно!
ещё из идей было бы любопытно учесть выбросы (ящики с усами?)
например, видно и прелюбопытно, что джен читают меньше, но комментируют больше, но есть некоторое подозрение, что стоит вычесть из джена как такового тексты автора Alteya, и ситуация по комментариям станет более ровной. ну или мне кажется и не станет.
вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами, возможно ещё, что в разных категориях зависимость разная. и насколько он объясняется просто тем, что люди читают только свою подписку, а насколько - иными какими-то факторами.

Feature in the Dust

17 октября 2021

ansy

вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами,

Насколько мне удалось заметить по конкурсным работам - весьма важен и разрыв велик. Данные для статистики по конкурсам, например, надо собирать сразу же по закрытию голосования. Иначе деаноны авторов исказят всю картину за несколько часов. :/

Mikunu

17 октября 2021

МакКей
Я это делаю для практики, чтобы учиться на чем-то более интересном. Ну а раз уж у меня есть готовый материал, то почему бы тут об этом не рассказать?
Feature in the Dust
Посмотрю, попробую, идеи нравятся
ansy
Тоже попробую реализовать в будущем

Feature in the Dust

17 октября 2021

Mikunu
Еще вам идей для "тренировки на кошках" (ну вот что сразу в голову приходит) - сравнить жизненные циклы - тоже отдельно для многоглавных работ, отдельно - для мини и отдельно - для конкурсных (потому что жизненный цикл конкурсных работ в первую неделю публикации сильно отличается).
Сравнить изменения в жизненном цикле по годам.
Выявить или подтвердить отсутствие влияния длинных государствннных выходных на жизненный цикл в первые дни публикации.

	Mikunu 17 октября 2021
Feature in the Dust Мысль интересная, постараюсь реализовать)

Feature in the Dust

17 октября 2021

Mikunu
Еще можно добавить пару производных показателей, типа отношение кол-в читателей к просмотрам.

Вот только основной минус анализа 18 тысяч работ в том, что при дроблении выборки станут столь малы, что построение гипотез превратится в лекарство от скуки: в учебных целях использовать можно, но достоверность выводов будет плюс-минус пол-лаптя. :))

Mikunu

17 октября 2021

Feature in the Dust
Увы :с
Но больше тут по ГП нет законченного. Но в принципе, хоть какую-то информацию это должно дать
Но вообще, я изначально не планировал это всё анализировать, это получилось спонтанно хд
Целью было посидеть над содержимым фанфиков, но вот с этим пока некоторые проблемы, потому выложил то, что поддалось анализу легче

	Feature in the Dust 17 октября 2021
Mikunu :) "Над содержимым" - это анализ частотности использования фраз?

	Mikunu 17 октября 2021
Feature in the Dust Ага! И не только. Хотелось бы попробовать поработать с машинным обучением с датасетом из фанфиков, благо возможность есть

	Feature in the Dust 17 октября 2021
Mikunu А вы, кстати, видели уже посты wlana по тегу про_автора ? Там, мне кажется, можно много интересного подчерпнуть с точки зрения подходов к анализу текстов.

	Mikunu 17 октября 2021
Feature in the Dust Как мне кажется по моему довольно скромному опыту, реализовать такое в коде мне будет достаточно сложно. По крайней мере учитывая контекст

Feature in the Dust

17 октября 2021

Mikunu
Ну да, формализовать подобный разбор непросто. Но если использовать эти примеры не в лоб, а просто как направление идей, то может получится достаточно интересно. Или не получится. Но, с другой стороны, для получения опыта достижимость цели не столь важна. :)

	Mikunu 17 октября 2021
Feature in the Dust Как направление идей вполне можно, я подумаю над этим. Но в любом случае это нескоро, идей сейчас накидали очень много и по некоторым ещё нужно почитать теорию

Натуральный блондин гет	+77
Эффект птеродактиля джен	+29
Аз воздам или Круги на воде джен	+16
Высокое искусство кулинарии, зельеварения и уползания джен	+14
Братья по магии. Точка отсчета джен	+12
Гермиона и Дагворт-Грейнджеры джен	+9
Восстань, погасшая душа! джен	+7
Ноктюрн в мрачных тонах джен	+6
И грянул гром гет	+6
Чистокровный спектр джен	+5