Матемаг: #литература #критика #ссылки #вопрос (Да, автор достаточно известный, сам-то давно знаю, но я не мог

#литература #критика #ссылки #вопрос
(Да, автор достаточно известный, сам-то давно знаю, но я не могу не поделится с теми, кто ещё не в теме!:)
Тэк-с, кажется, я достаточно отошёл от ржача и поднял себе настроение до 9000. Мир вокруг теперь кажется, светлым, ярким, чистым, удивительно разумным, рациональным, постижимым и логичным. Вы хотите испытать подобное чувство, которое - почти что тень просветления? Тогда ТЫК! Это книга написана на острую политическую тему, если не ошибаюсь, за две недели, одним из самых гениальных авторов современности!
Также вы можете почитать про:
Эффект комара
Битву за Берлин и за Европу
Попаданца в пчелу
Витязей-клонов
Настоятельно рекомендую регулярно посещать эту страничку и просветлять свой ум одним из самых адских угаров на нашей планетке. Обратите внимание на объём произведений, и да пребудет с вами гиперплазма!

Вопрос к знатокам: современный текстогенераторы позволяет такое? Мне кажется, что нет, но сам не знаток.

P.S. Все просветлившиеся ставят мимимишки.

8 августа 2014

Отключить рекламу

19 комментариев из 30

Показать ещё 11 комментариев

	Jeka-R 8 августа 2014
ахахах, я могу вам посоветовать еще две книги одной серии (не помню какая из них первая) Несгибаемый Сталинатор! http://samlib.ru/r/rybachenko_o_p/terror2-54.shtml Звездный терминатор! http://samlib.ru/r/rybachenko_o_p/terror2-55.shtml Наслаждайтесь..... :D

	Матемаг Онлайн 8 августа 2014
Эти более старые. Чем старше, тем чуть-чуть адекватней:)

Cheery Cherry

8 августа 2014

Так, посмотрела ещё раз. Человеческие руки тут были: есть локальные ошибки ("с помощь" вместо "с помощью" и подобные), никакой генератор такого бы не выдал. Возможно, был генератор, тренированный на корпусе из фантастики и выдающий тексты, содержащие заданные слова. А затем по нескольким прогонам генератора уже прошлись человеческие руки.

	Матемаг Онлайн 8 августа 2014
Сколько книг просмотрели? Я вот ни в одной не добрался так далеко, чтобы судить о сюжете - то ржач, то тошнит, то зевота. Текстогенераторы, вроде бы, не умеют в сюжет.

Cheery Cherry

8 августа 2014

Один только кусочек из "ЭТОГО", и то только ради структуры текста. :) У меня правда сложилось впечатление, что если через генератор делалось, то в несколько прогонов, а дальше соединялось руками.
Я не интересовалась, как дела с текстовыми генераторами со встроенной грамматикой, но раз мне сразу примерно представлется пара идей, как такое можно сделать, оно наверняка есть. Тут грамматика была. Ну или руками он столько делал, что уж проще самому побредить:)
С сюжетами разные системы бывают, они никому не нужны, пока работают некачественно, так что ни одна толком не получила развития. Мы вот реализовывали с базами знаний, это слишком медленно работало, чтобы быть чем-то кроме забавы.

	Матемаг Онлайн 8 августа 2014
"что уж проще самому побредить" - скорость написание нереальная. И объём текстов. "с базами знаний" - хмн, нейросеть обучить на это дело, может? Должно быть быстрее. И ближе к естеству, хех. Только как обучать?..

Cheery Cherry

8 августа 2014

Как раз недавно кто-то тут затрагивал тему, как так у некоторых выходит в день по проде :) В общем, N-граммные модели совсем не сложно строятся, а при N около 5 по крайней мере на анлийском даёт уже что-то весьма осмысленное.

Ладно, по имеющимся текстам вы там как-нибудь скормите системе положительный сигнал (как строить сюжеты можно). А как сделаете отрицательный сигнал?

	Матемаг Онлайн 8 августа 2014
Надо поподробнее погуглить, экспертные системы с базами знаний - даже не интересовался ими. Я о том же. Хз как.

Cheery Cherry

8 августа 2014

Экспертные системы? Почему экспертные? (Может, я просто термина на русском не знаю) У меня после курса по базам знаний, ....семантической Сети и ...дескриптивной, наверное, логике (кажется, на русском это всё зовётся не так :-D) сложилось впечатление, что на этом далеко не уедешь. Интересного, чтобы понапрягать мозги, вы там тоже не встретите, по крайней мере если не полезете в имплементацию - кванторы да операции на множествах. Последующие проекты меня тоже не убедили, что на самом деле это очень интересно )

Видела ...короче, unsupervised метод, который искусственно превратили в supervised (на русском, кажется, "без учителя"/"с учителем"). В нём, чтобы иметь положительные и отрицательные примеры, берем имеющиеся тексты и рассматриваем их по пять последовательных токенов ("вот так , например .sent"). Берем среднее слово и выставляем, что оно *умеет* встречаться в таком окружении (положительный пример). Берем одно произвольное слово из лексикона и выставляем ему для этого окружения отрицательный пример - типа так нельзя. Из-за того, что словарь огромен, нам почти всегда будет везти и мы будем строить настоящие отрицательные примеры. Это я совсем недавно встретила, понравилось.

Показать полностью

Матемаг Онлайн

8 августа 2014

Вроде так. А может, вы что-то иное имеете в виду. Экспертные - потому что ответ на запрос как эксперт. На виду всякие "Акинаторы" да "виртуальные врачи".

"почти всегда будет везти" - это не приведёт к некорректному обучению, когда часть корректных фраз будет сочтена некорректными?

Cheery Cherry

8 августа 2014

Всё, мы снова на одной волне. Нет, экспертные системы к генерированию текстов отношение имеют опосредованное - чтобы экспертная система общалась с пользователем, ей нужно уметь выражать то, что она думает, текстом. Ну и на этом всё, она не говорит просто ради того чтобы говорить :)
Но откуда они у вас в сообщении возникли, я не отследила. Отсюда: "С сюжетами разные системы бывают, они никому не нужны, пока работают некачественно, так что ни одна толком не получила развития. Мы вот реализовывали с базами знаний, это слишком медленно работало, чтобы быть чем-то кроме забавы"?

Если и посчитает, то очень-очень мало фраз.

Матемаг Онлайн

8 августа 2014

Cheery Cherry, тогда что? Генетические алгоритмы? Как называется принцип, лежащий в генерации текстов с помощью баз знаний?

"ей нужно уметь выражать то, что она думает" - хех, не всегда. Если ей тупо вводят, например, симптомы, и ожидают в ответ получить название болезни, то зачем общение?

"очень-очень мало фраз" - что-то сомневаюсь, что очень-очень мало. Лучше бы, имхо, вручную настроить несколько шаблонов "плохих" сочетаний. Каждому будет соответствовать дохреналлион выборок из словаря. Хмн, мне вот интересно, а базы лексических ошибок существуют? Если да, то даже париться не надо. Чорт, в голове вертится, где бы они могли существовать, но достать не могу:(

Cheery Cherry

8 августа 2014

Никак не называется. У всех по-разному может быть. У нас был типа детский проект, мы делали так: началом истории служит состояние мира (заданные какие-то объекты, отношения: Петя сапожник, Маша учительница, Петя и Маша женаты), дальше согласно вероятностному распределению для именно этого мира применяется одно из правил обновления (например, скажем, мы сами написали: если есть люди X и Y, находящиеся в отношении женаты, то с вероятностью в 0.4 у них рождается ребёнок). База знаний нужна для элементарных выводов, чтобы руками не писать каждый раз, что Петя не только сапожник, но ещё и человек, и что лягушонок у Пети и Маши родиться не может)) До полноценного текстового уровня мы не доводили, проект был совсем коротенький, но более-менее понятно, что когда у нас есть эти обновления, то есть мы знаем, что хотим сказать, найти способ, *как* это сказать, можно.
Хотели ещё посмотреть, нельзя ли все эти обновления и стартовые состояния мира как-нибудь не руками делать. Но это обещало работать не очень. Например, в другом проекте строили онтологию по текстам, мусора было-о-о...
Генетический алгоритм - в некоторых системах приделывать можно, хорошо работать не будет.

Если ЭС не готова сказать диагноз, она должна спросить, "а не беспокоит ли вас ещё вот это?" Или: "как именно вас беспокоит это?"

Это возникло как раз в идее как можно меньше работать руками (глубокое обучение). На удивление, оно хорошо работает.
Относительно всех наблюдаемых контекстов и размера словаря - да, промахов будет не много.

Смотря что вы имеете в виду под лексическими ошибками. Обычно смотрят, что из введенного текста не входит в словарь, и подчёркивают это как лексическую ошибку. Какое слово ближе всего к введенному по той или иной метрике, то и предлагают как заменитель. Ну, можно сохранить информацию о том, какие ошибки пользователей исправлялись на какие правильные варианты.
...Мне надо убегать, отправлю что есть сейчас =)

Показать полностью

	Матемаг Онлайн 8 августа 2014
Любопытно, на самом деле. "отправлю что есть" - а есть ещё? Расскажите!:)

	romanio 8 августа 2014
Да, расскажите. Черт, была у меня статья с хабра, но посеял... :(

Cheery Cherry

9 августа 2014

Есть стандартный подход к работе с текстами - bag of words. У нас есть, скажем, три тысячи новостных статей. Мы смотрим, сколько разных слов в них встречается. Не помню, какая цифра будет реалистичной, поэтому пусть N. Дальше берем первую статью и смотрим на первое слово в списке - пусть это "абрикос". В нашей статье слово "абрикос" не встретилось ни разу, ставим ноль. Дальше слово "арбуз", оно встретилось два раза, ставим два. Так пробегаем по всем словам и получаем вектор (0, 2, ...), с которым мы связываем всю статью. Большинства известных слов в статье нет - по большей части в векторе нули. То есть мы ворочаем огромными размерностями абсолютно понапрасну. Вдобавок, когда слов и статей много, получаем "проклятие размерности" - разница между двумя в корне разными статьями становится не такая уж и большая, как векторы они обе слишком близки к нулю. И что ты на такой модели ни строй, всё будет плохо работать ))
Одна из очень удачных идей современного NLP - работать с векторами, которые будут состоять не из целых, а дробных чисел. Эти векторы строить по встретившимся контекстам конкретного слова. Как строить - есть разные способы. Правда, каждая отдельная координата уже не будет представлять собой какой-то признак, о котором мы будем в курсе; но зато-о-о оказывается, что мы очень сильно выигрываем в размерности, слова более-менее группируются по частям речи, и даже можно так всё сделать, что вектор для "столы" минус вектор для "стол" будет примерно тем же, что и "стулья" минус "стул"; можно отловить даже по смыслу - частное минус общее сохраняется, а "принцесса" плюс "король" даёт "королеву" ))

Показать полностью

	Матемаг Онлайн 9 августа 2014
задумался, осмысляя

	Cheery Cherry 9 августа 2014
(Просто это тоже интересно, по-моему)

	Матемаг Онлайн 9 августа 2014
Да.