Матемаг: #литература #критика #ссылки #вопрос (Да, автор достаточно известный, сам-то давно знаю, но я не мог

#литература #критика #ссылки #вопрос
(Да, автор достаточно известный, сам-то давно знаю, но я не могу не поделится с теми, кто ещё не в теме!:)
Тэк-с, кажется, я достаточно отошёл от ржача и поднял себе настроение до 9000. Мир вокруг теперь кажется, светлым, ярким, чистым, удивительно разумным, рациональным, постижимым и логичным. Вы хотите испытать подобное чувство, которое - почти что тень просветления? Тогда ТЫК! Это книга написана на острую политическую тему, если не ошибаюсь, за две недели, одним из самых гениальных авторов современности!
Также вы можете почитать про:
Эффект комара
Битву за Берлин и за Европу
Попаданца в пчелу
Витязей-клонов
Настоятельно рекомендую регулярно посещать эту страничку и просветлять свой ум одним из самых адских угаров на нашей планетке. Обратите внимание на объём произведений, и да пребудет с вами гиперплазма!

Вопрос к знатокам: современный текстогенераторы позволяет такое? Мне кажется, что нет, но сам не знаток.

P.S. Все просветлившиеся ставят мимимишки.

8 августа 2014

Отключить рекламу

4 комментариев из 30 (показать все)

Показать ещё 20 комментариев

Cheery Cherry

9 августа 2014

Есть стандартный подход к работе с текстами - bag of words. У нас есть, скажем, три тысячи новостных статей. Мы смотрим, сколько разных слов в них встречается. Не помню, какая цифра будет реалистичной, поэтому пусть N. Дальше берем первую статью и смотрим на первое слово в списке - пусть это "абрикос". В нашей статье слово "абрикос" не встретилось ни разу, ставим ноль. Дальше слово "арбуз", оно встретилось два раза, ставим два. Так пробегаем по всем словам и получаем вектор (0, 2, ...), с которым мы связываем всю статью. Большинства известных слов в статье нет - по большей части в векторе нули. То есть мы ворочаем огромными размерностями абсолютно понапрасну. Вдобавок, когда слов и статей много, получаем "проклятие размерности" - разница между двумя в корне разными статьями становится не такая уж и большая, как векторы они обе слишком близки к нулю. И что ты на такой модели ни строй, всё будет плохо работать ))
Одна из очень удачных идей современного NLP - работать с векторами, которые будут состоять не из целых, а дробных чисел. Эти векторы строить по встретившимся контекстам конкретного слова. Как строить - есть разные способы. Правда, каждая отдельная координата уже не будет представлять собой какой-то признак, о котором мы будем в курсе; но зато-о-о оказывается, что мы очень сильно выигрываем в размерности, слова более-менее группируются по частям речи, и даже можно так всё сделать, что вектор для "столы" минус вектор для "стол" будет примерно тем же, что и "стулья" минус "стул"; можно отловить даже по смыслу - частное минус общее сохраняется, а "принцесса" плюс "король" даёт "королеву" ))

Показать полностью

	Матемаг Онлайн 9 августа 2014
задумался, осмысляя

	Cheery Cherry 9 августа 2014
(Просто это тоже интересно, по-моему)

	Матемаг Онлайн 9 августа 2014
Да.

Мальчик-который-в-деле джен	+162
Оружейник Хаоса гет	+16
Мальчик-который-попал-на-Слизерин. Третий курс джен	+16
Останешься только ты джен	+10
Профессор Бербидж джен	+9
Убегаевка строгого режима слэш	+9
По готовому шаблону джен	+7
Изнанка отражения гет	+7
Изгои джен	+7
Положительный результат джен	+6