pskovoroda

Фанфики

25 произведений»

Отчаявшаяся кладоискательница
Гет, Макси, Закончен
37k 176 816 4

Ронни и его друзья. 2. Как похудеть за неделю
Джен, Мини, Закончен
1.2k 0 44

Ронни и его друзья. 1. Пенис енладжмент
Джен, Мини, Закончен
1.6k 0 54

Злой гений
Гет, Макси, Закончен
59k 198 1k 6

Олли
Гет, Макси, Закончен
81k 326 506 2

Редактура

32 произведения»

3000 дней невиновности
Гет, Макси, Закончен
73k 79 635 2

Контракт
Гет, Макси, Закончен
208k 217 2.4k 1

Гарри Поттер и Непогасший Маяк
Гет, Миди, Закончен
19k 12 354

Самый избранный из всех попаданцев
Гет, Макси, Заморожен
39k 34 232

В поисках места, что домом зовется
Гет, Макси, Закончен
198k 136 3.5k 6

Подарки

7 подарков»

	Это просто квиддич От Хэлен
	Шалость удалась От мозгомышка
	В руках воды От ansy

Награды

72 награды»

	12 лет на сайте 23 мая 2026
	11 лет на сайте 23 мая 2025
	10 лет на сайте 23 мая 2024
	9 лет на сайте 23 мая 2023
	12 макси 14 сентября 2022

Блог » Поиск
Хэштеги

Искать #скриптики во всех блогах »

pskovoroda

25 октября 2015

#скриптики
Искал что-нибудь для статистического анализа текста, но толком не нашёл. Кстати, если кто посоветует пригодный софт или сайт с автоматом на нём, буду признателен.

В общем, в итоге скачал Mystem и к этому допилил короткий скрипт на Перле:

use strict;
use warnings;
my %count;
while (<>) {
$count{$_}++ for /(?<={)[^|}]+/g;
}
my $sum = 0;
foreach my $str (sort keys %count) {
$sum ++;
}
$count {"Total dictionary"} = $sum;
printf "%-31s %s\\n", $_, $count{$_}
for sort { $count{$b} <=> $count{$a} || $a cmp $b} keys %count;

Ничего особенного, в общем-то, но если прогнать текст через Mystem, а результат — через скрипт (можно всё в один пайп засунуть), то в итоге получится список слов с числом повторений. В первой строке выводится общее число разных слов (активный словарный запас)

cat text.txt | mystem -e cp1251 | perl frequency.pl > out.stat

Выход Mystem выглядит примерно так:

он{он}продолжал{продолжать}завтрак{завтрак}

То, что нужно считать — в фигурных скобках, причём иногда бывает и так:

это{это|этот}

Первая строка в while находит все слова между { и } или между { и | и для каждого из этих слов делает инкремент счётчика в хэше. Собственно, на этом и всё. Цикл foreach считает число записей в хэше и затем добавляет ещё одним элементом. Последующий printf сортирует хэш по счётчику и печатает пару из ключа и значения.

Свернуть сообщение

Показать полностью

Показать 12 комментариев

pskovoroda

27 апреля 2015

#скриптики
Написал небольшой скрипт для переделки из Гугловского документа в ПФ (минимум форматирования + главы). Документ нужно сохранить в HTML, а потом запустить Перл

perl -p fanfics.pl index.html > out.html

скачать можно здесь

Показать 1 комментарий

Натуральный блондин гет	+113
Эффект птеродактиля джен	+80
Высокое искусство кулинарии, зельеварения и уползания джен	+17
Аз воздам или Круги на воде джен	+7
Timeo Danaos et dona ferentes джен	+7
Обида джен	+6
Фрактал гет	+6
Рыбья кровь джен	+6
Письмо. Сириус Блэк джен	+6
Предсказанное джен	+4

pskovoroda

Фанфики

Редактура

Фанарт

Подарки

Награды

Блог » ПоискХэштеги

Блог » Поиск
Хэштеги