↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Mikunu
17 октября 2021
Aa Aa
#гарри_поттер_и_анализ_фандома #ГП #фанфикс #картинки_в_блогах

Всем привет, я студент-второкурсник, который увлекается анализом данных и фанфиками.
Вчера я скачал 18 704 законченных фанфика по Поттериане и некоторые данные о фанфиках. Теперь у меня много, много, очень много материала...
Но о содержании фанфиках позже, для начала я хотел бы рассказать (если, конечно, в коде нигде не накосячил, что маловероятно, так как результаты выглядит вполне убедительными) о более простых вещах: просмотры, читатели, комментарии и рекомендации.

Итак, есть 4 категории: гет, джен, слэш, фемслэш. Для каждой из категорий я просто суммировал значения.

Больше всего просматривают гет, 189 986 162 просмотра.
Читают активнее всего слэш, 3 474 808 читателя.
Самым комментируем оказался джен - 383 245 комментариев.
А по рекомендациям лидирует гет с 15 474 рекомендациями.
(сочувствую фемслэшу)

Также предоставляю графики с более подробной информацией:


Все информация актуальна на 16.10.2021
17 октября 2021
17 комментариев из 35
Заяц Онлайн
Altra Realta
Ты можешь отрекламить его в блогах, например.

Но самых хороших, необычных и слишком умных мало читают, так всегда было. Чем больше требования к читателю, тем аудитория меньше. А то что понятно всем... либо это супергений, который пишет историю сразу на нескольких уровнях, либо уникальный сюжет, но намного чаще это стандартный популярный продукт.

А ирония не зря, она делает мир немного веселее ;)
Altra Realta Онлайн
Заяц
Я свое тут уже отрекламил. Хватит с меня, теперь я просто ворчливый пень, который периодически бетит и срется в блогах.
И вообще это я к тому, что выборка, конечно, показательна, но не учитывает степень известности бренда, хех.
К чему это надо...нипанятна
Для анализа подобной выборки по направленности на основе просмотров/читателей/рек имхо стоит выделить отдельно еще вот такие подгруппы:
1. Высокий рейтинг - для гета и слэша среднее количество просмотров работ такого рейтинга может сильно отличаться от количества просмотров работ низкого рейтинга при прочих равных (пейринге/размере/и т. д. )
2. Размер, статус и активность выкладки: размер имеет значение ;) как минимум на уровне разделения "выложил работу сразу"/"выкладывал работу поглавно некоторое время" - второй вариант может показывать куда большее количество читателей - за счет учета в этом показателе тех, кто выбрал метки "подписаться на новые главы" и "жду окончания". При этом у макси, которые получили статус "заморожен"/"закончен" количество читателей может упасть после смены статуса.
3. Авторство - количество просмотров/читателей работ у авторов с большим количеством подписчиков может сильно отличаться от авторов не из топа. Это особенно хорошо заметно в последний день конкурса - после снятия анонимности.
4. Как выше правильно отметили - выкладка работы в рамках конкурса: конкурсным работам во время голосования гораздо чаще ставят метку "прочитано" и на них в этот период куда активнее пишут реки - опять же можно сравнить изменение этих показателей после снятия анонимности.

Кроме того, у работ, получивших реку или упоминание в блогах от популярных пользователей с большим количеством подписчиков (вот например от Альтры ;)) бдует наблюдатьс всплеск просмотров и небольшой всплеск читателей.

Еще можно к чистым количественным характеристикам (просмотры/читатели/реки) добавить отношение количества меток "понравилось" к общему количеству читателей - т.к. например на конкурсе метку "прочитано" читатель, желающий проголосовать, поставит всем работам номинации - не зависимо от своего отношения к ним, а вот "понравилось"/"не понравилось" - эта мека ставится уже только для самого себя.
Показать полностью
спасибо, очень любопытно!
ещё из идей было бы любопытно учесть выбросы (ящики с усами?)
например, видно и прелюбопытно, что джен читают меньше, но комментируют больше, но есть некоторое подозрение, что стоит вычесть из джена как такового тексты автора Alteya, и ситуация по комментариям станет более ровной. ну или мне кажется и не станет.
вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами, возможно ещё, что в разных категориях зависимость разная. и насколько он объясняется просто тем, что люди читают только свою подписку, а насколько - иными какими-то факторами.
ansy
вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами,
Насколько мне удалось заметить по конкурсным работам - весьма важен и разрыв велик. Данные для статистики по конкурсам, например, надо собирать сразу же по закрытию голосования. Иначе деаноны авторов исказят всю картину за несколько часов. :/
МакКей
Я это делаю для практики, чтобы учиться на чем-то более интересном. Ну а раз уж у меня есть готовый материал, то почему бы тут об этом не рассказать?
Feature in the Dust
Посмотрю, попробую, идеи нравятся
ansy
Тоже попробую реализовать в будущем
Mikunu
Еще вам идей для "тренировки на кошках" (ну вот что сразу в голову приходит) - сравнить жизненные циклы - тоже отдельно для многоглавных работ, отдельно - для мини и отдельно - для конкурсных (потому что жизненный цикл конкурсных работ в первую неделю публикации сильно отличается).
Сравнить изменения в жизненном цикле по годам.
Выявить или подтвердить отсутствие влияния длинных государствннных выходных на жизненный цикл в первые дни публикации.
Feature in the Dust
Мысль интересная, постараюсь реализовать)
Mikunu
Еще можно добавить пару производных показателей, типа отношение кол-в читателей к просмотрам.

Вот только основной минус анализа 18 тысяч работ в том, что при дроблении выборки станут столь малы, что построение гипотез превратится в лекарство от скуки: в учебных целях использовать можно, но достоверность выводов будет плюс-минус пол-лаптя. :))
Feature in the Dust
Увы :с
Но больше тут по ГП нет законченного. Но в принципе, хоть какую-то информацию это должно дать
Но вообще, я изначально не планировал это всё анализировать, это получилось спонтанно хд
Целью было посидеть над содержимым фанфиков, но вот с этим пока некоторые проблемы, потому выложил то, что поддалось анализу легче
Mikunu
:)
"Над содержимым" - это анализ частотности использования фраз?
Feature in the Dust
Ага! И не только. Хотелось бы попробовать поработать с машинным обучением с датасетом из фанфиков, благо возможность есть
Mikunu
А вы, кстати, видели уже посты wlana по тегу про_автора ?
Там, мне кажется, можно много интересного подчерпнуть с точки зрения подходов к анализу текстов.
Feature in the Dust
Как мне кажется по моему довольно скромному опыту, реализовать такое в коде мне будет достаточно сложно. По крайней мере учитывая контекст
Mikunu
Ну да, формализовать подобный разбор непросто. Но если использовать эти примеры не в лоб, а просто как направление идей, то может получится достаточно интересно. Или не получится. Но, с другой стороны, для получения опыта достижимость цели не столь важна. :)
Feature in the Dust
Как направление идей вполне можно, я подумаю над этим. Но в любом случае это нескоро, идей сейчас накидали очень много и по некоторым ещё нужно почитать теорию
ПОИСК
ФАНФИКОВ











Закрыть
Закрыть
Закрыть