↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Mikunu
17 октября 2021
Aa Aa
#гарри_поттер_и_анализ_фандома #ГП #фанфикс #картинки_в_блогах

Всем привет, я студент-второкурсник, который увлекается анализом данных и фанфиками.
Вчера я скачал 18 704 законченных фанфика по Поттериане и некоторые данные о фанфиках. Теперь у меня много, много, очень много материала...
Но о содержании фанфиках позже, для начала я хотел бы рассказать (если, конечно, в коде нигде не накосячил, что маловероятно, так как результаты выглядит вполне убедительными) о более простых вещах: просмотры, читатели, комментарии и рекомендации.

Итак, есть 4 категории: гет, джен, слэш, фемслэш. Для каждой из категорий я просто суммировал значения.

Больше всего просматривают гет, 189 986 162 просмотра.
Читают активнее всего слэш, 3 474 808 читателя.
Самым комментируем оказался джен - 383 245 комментариев.
А по рекомендациям лидирует гет с 15 474 рекомендациями.
(сочувствую фемслэшу)

Также предоставляю графики с более подробной информацией:


Все информация актуальна на 16.10.2021
17 октября 2021
20 комментариев из 35
ReFeRy
Я не думаю, что такое реально может помочь против тех, кто захочет скачать всё. Максимум остановит наименее искушённых
Да и тем более можно спарсить содержимое фанфиков через "Читать", что вроде бы доступно даже незареганному юзеру
ReFeRy
Как раз сегодня рассматривал эти ваши 18000 скачиваний
Это была перепись населения)))
Заяц
Altra Realta
Випов, чуков и геков
Зря иронизируешь. Есть Заязочка, не к ночи будь помянута, а есть отличный автор, которого вообще не знает никто и у которого три подписчика.
Altra Realta
Ты можешь отрекламить его в блогах, например.

Но самых хороших, необычных и слишком умных мало читают, так всегда было. Чем больше требования к читателю, тем аудитория меньше. А то что понятно всем... либо это супергений, который пишет историю сразу на нескольких уровнях, либо уникальный сюжет, но намного чаще это стандартный популярный продукт.

А ирония не зря, она делает мир немного веселее ;)
Заяц
Я свое тут уже отрекламил. Хватит с меня, теперь я просто ворчливый пень, который периодически бетит и срется в блогах.
И вообще это я к тому, что выборка, конечно, показательна, но не учитывает степень известности бренда, хех.
К чему это надо...нипанятна
Для анализа подобной выборки по направленности на основе просмотров/читателей/рек имхо стоит выделить отдельно еще вот такие подгруппы:
1. Высокий рейтинг - для гета и слэша среднее количество просмотров работ такого рейтинга может сильно отличаться от количества просмотров работ низкого рейтинга при прочих равных (пейринге/размере/и т. д. )
2. Размер, статус и активность выкладки: размер имеет значение ;) как минимум на уровне разделения "выложил работу сразу"/"выкладывал работу поглавно некоторое время" - второй вариант может показывать куда большее количество читателей - за счет учета в этом показателе тех, кто выбрал метки "подписаться на новые главы" и "жду окончания". При этом у макси, которые получили статус "заморожен"/"закончен" количество читателей может упасть после смены статуса.
3. Авторство - количество просмотров/читателей работ у авторов с большим количеством подписчиков может сильно отличаться от авторов не из топа. Это особенно хорошо заметно в последний день конкурса - после снятия анонимности.
4. Как выше правильно отметили - выкладка работы в рамках конкурса: конкурсным работам во время голосования гораздо чаще ставят метку "прочитано" и на них в этот период куда активнее пишут реки - опять же можно сравнить изменение этих показателей после снятия анонимности.

Кроме того, у работ, получивших реку или упоминание в блогах от популярных пользователей с большим количеством подписчиков (вот например от Альтры ;)) бдует наблюдатьс всплеск просмотров и небольшой всплеск читателей.

Еще можно к чистым количественным характеристикам (просмотры/читатели/реки) добавить отношение количества меток "понравилось" к общему количеству читателей - т.к. например на конкурсе метку "прочитано" читатель, желающий проголосовать, поставит всем работам номинации - не зависимо от своего отношения к ним, а вот "понравилось"/"не понравилось" - эта мека ставится уже только для самого себя.
Показать полностью
спасибо, очень любопытно!
ещё из идей было бы любопытно учесть выбросы (ящики с усами?)
например, видно и прелюбопытно, что джен читают меньше, но комментируют больше, но есть некоторое подозрение, что стоит вычесть из джена как такового тексты автора Alteya, и ситуация по комментариям станет более ровной. ну или мне кажется и не станет.
вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами, возможно ещё, что в разных категориях зависимость разная. и насколько он объясняется просто тем, что люди читают только свою подписку, а насколько - иными какими-то факторами.
ansy
вообще интересно, насколько важен условный бренд автора и велик разрыв между популярными и обычными авторами,
Насколько мне удалось заметить по конкурсным работам - весьма важен и разрыв велик. Данные для статистики по конкурсам, например, надо собирать сразу же по закрытию голосования. Иначе деаноны авторов исказят всю картину за несколько часов. :/
МакКей
Я это делаю для практики, чтобы учиться на чем-то более интересном. Ну а раз уж у меня есть готовый материал, то почему бы тут об этом не рассказать?
Feature in the Dust
Посмотрю, попробую, идеи нравятся
ansy
Тоже попробую реализовать в будущем
Mikunu
Еще вам идей для "тренировки на кошках" (ну вот что сразу в голову приходит) - сравнить жизненные циклы - тоже отдельно для многоглавных работ, отдельно - для мини и отдельно - для конкурсных (потому что жизненный цикл конкурсных работ в первую неделю публикации сильно отличается).
Сравнить изменения в жизненном цикле по годам.
Выявить или подтвердить отсутствие влияния длинных государствннных выходных на жизненный цикл в первые дни публикации.
Feature in the Dust
Мысль интересная, постараюсь реализовать)
Mikunu
Еще можно добавить пару производных показателей, типа отношение кол-в читателей к просмотрам.

Вот только основной минус анализа 18 тысяч работ в том, что при дроблении выборки станут столь малы, что построение гипотез превратится в лекарство от скуки: в учебных целях использовать можно, но достоверность выводов будет плюс-минус пол-лаптя. :))
Feature in the Dust
Увы :с
Но больше тут по ГП нет законченного. Но в принципе, хоть какую-то информацию это должно дать
Но вообще, я изначально не планировал это всё анализировать, это получилось спонтанно хд
Целью было посидеть над содержимым фанфиков, но вот с этим пока некоторые проблемы, потому выложил то, что поддалось анализу легче
Mikunu
:)
"Над содержимым" - это анализ частотности использования фраз?
Feature in the Dust
Ага! И не только. Хотелось бы попробовать поработать с машинным обучением с датасетом из фанфиков, благо возможность есть
Mikunu
А вы, кстати, видели уже посты wlana по тегу про_автора ?
Там, мне кажется, можно много интересного подчерпнуть с точки зрения подходов к анализу текстов.
Feature in the Dust
Как мне кажется по моему довольно скромному опыту, реализовать такое в коде мне будет достаточно сложно. По крайней мере учитывая контекст
Mikunu
Ну да, формализовать подобный разбор непросто. Но если использовать эти примеры не в лоб, а просто как направление идей, то может получится достаточно интересно. Или не получится. Но, с другой стороны, для получения опыта достижимость цели не столь важна. :)
Feature in the Dust
Как направление идей вполне можно, я подумаю над этим. Но в любом случае это нескоро, идей сейчас накидали очень много и по некоторым ещё нужно почитать теорию
ПОИСК
ФАНФИКОВ







Закрыть
Закрыть
Закрыть