Матемаг: #литература #критика #ссылки #вопрос (Да, автор достаточно известный, сам-то давно знаю, но я не мог

#литература #критика #ссылки #вопрос
(Да, автор достаточно известный, сам-то давно знаю, но я не могу не поделится с теми, кто ещё не в теме!:)
Тэк-с, кажется, я достаточно отошёл от ржача и поднял себе настроение до 9000. Мир вокруг теперь кажется, светлым, ярким, чистым, удивительно разумным, рациональным, постижимым и логичным. Вы хотите испытать подобное чувство, которое - почти что тень просветления? Тогда ТЫК! Это книга написана на острую политическую тему, если не ошибаюсь, за две недели, одним из самых гениальных авторов современности!
Также вы можете почитать про:
Эффект комара
Битву за Берлин и за Европу
Попаданца в пчелу
Витязей-клонов
Настоятельно рекомендую регулярно посещать эту страничку и просветлять свой ум одним из самых адских угаров на нашей планетке. Обратите внимание на объём произведений, и да пребудет с вами гиперплазма!

Вопрос к знатокам: современный текстогенераторы позволяет такое? Мне кажется, что нет, но сам не знаток.

P.S. Все просветлившиеся ставят мимимишки.

8 августа 2014

Отключить рекламу

9 комментариев из 30 (показать все)

Показать ещё 20 комментариев

Cheery Cherry

8 августа 2014

Всё, мы снова на одной волне. Нет, экспертные системы к генерированию текстов отношение имеют опосредованное - чтобы экспертная система общалась с пользователем, ей нужно уметь выражать то, что она думает, текстом. Ну и на этом всё, она не говорит просто ради того чтобы говорить :)
Но откуда они у вас в сообщении возникли, я не отследила. Отсюда: "С сюжетами разные системы бывают, они никому не нужны, пока работают некачественно, так что ни одна толком не получила развития. Мы вот реализовывали с базами знаний, это слишком медленно работало, чтобы быть чем-то кроме забавы"?

Если и посчитает, то очень-очень мало фраз.

Матемаг Онлайн

8 августа 2014

Cheery Cherry, тогда что? Генетические алгоритмы? Как называется принцип, лежащий в генерации текстов с помощью баз знаний?

"ей нужно уметь выражать то, что она думает" - хех, не всегда. Если ей тупо вводят, например, симптомы, и ожидают в ответ получить название болезни, то зачем общение?

"очень-очень мало фраз" - что-то сомневаюсь, что очень-очень мало. Лучше бы, имхо, вручную настроить несколько шаблонов "плохих" сочетаний. Каждому будет соответствовать дохреналлион выборок из словаря. Хмн, мне вот интересно, а базы лексических ошибок существуют? Если да, то даже париться не надо. Чорт, в голове вертится, где бы они могли существовать, но достать не могу:(

Cheery Cherry

8 августа 2014

Никак не называется. У всех по-разному может быть. У нас был типа детский проект, мы делали так: началом истории служит состояние мира (заданные какие-то объекты, отношения: Петя сапожник, Маша учительница, Петя и Маша женаты), дальше согласно вероятностному распределению для именно этого мира применяется одно из правил обновления (например, скажем, мы сами написали: если есть люди X и Y, находящиеся в отношении женаты, то с вероятностью в 0.4 у них рождается ребёнок). База знаний нужна для элементарных выводов, чтобы руками не писать каждый раз, что Петя не только сапожник, но ещё и человек, и что лягушонок у Пети и Маши родиться не может)) До полноценного текстового уровня мы не доводили, проект был совсем коротенький, но более-менее понятно, что когда у нас есть эти обновления, то есть мы знаем, что хотим сказать, найти способ, *как* это сказать, можно.
Хотели ещё посмотреть, нельзя ли все эти обновления и стартовые состояния мира как-нибудь не руками делать. Но это обещало работать не очень. Например, в другом проекте строили онтологию по текстам, мусора было-о-о...
Генетический алгоритм - в некоторых системах приделывать можно, хорошо работать не будет.

Если ЭС не готова сказать диагноз, она должна спросить, "а не беспокоит ли вас ещё вот это?" Или: "как именно вас беспокоит это?"

Это возникло как раз в идее как можно меньше работать руками (глубокое обучение). На удивление, оно хорошо работает.
Относительно всех наблюдаемых контекстов и размера словаря - да, промахов будет не много.

Смотря что вы имеете в виду под лексическими ошибками. Обычно смотрят, что из введенного текста не входит в словарь, и подчёркивают это как лексическую ошибку. Какое слово ближе всего к введенному по той или иной метрике, то и предлагают как заменитель. Ну, можно сохранить информацию о том, какие ошибки пользователей исправлялись на какие правильные варианты.
...Мне надо убегать, отправлю что есть сейчас =)

Показать полностью

	Матемаг Онлайн 8 августа 2014
Любопытно, на самом деле. "отправлю что есть" - а есть ещё? Расскажите!:)

	romanio 8 августа 2014
Да, расскажите. Черт, была у меня статья с хабра, но посеял... :(

Cheery Cherry

9 августа 2014

Есть стандартный подход к работе с текстами - bag of words. У нас есть, скажем, три тысячи новостных статей. Мы смотрим, сколько разных слов в них встречается. Не помню, какая цифра будет реалистичной, поэтому пусть N. Дальше берем первую статью и смотрим на первое слово в списке - пусть это "абрикос". В нашей статье слово "абрикос" не встретилось ни разу, ставим ноль. Дальше слово "арбуз", оно встретилось два раза, ставим два. Так пробегаем по всем словам и получаем вектор (0, 2, ...), с которым мы связываем всю статью. Большинства известных слов в статье нет - по большей части в векторе нули. То есть мы ворочаем огромными размерностями абсолютно понапрасну. Вдобавок, когда слов и статей много, получаем "проклятие размерности" - разница между двумя в корне разными статьями становится не такая уж и большая, как векторы они обе слишком близки к нулю. И что ты на такой модели ни строй, всё будет плохо работать ))
Одна из очень удачных идей современного NLP - работать с векторами, которые будут состоять не из целых, а дробных чисел. Эти векторы строить по встретившимся контекстам конкретного слова. Как строить - есть разные способы. Правда, каждая отдельная координата уже не будет представлять собой какой-то признак, о котором мы будем в курсе; но зато-о-о оказывается, что мы очень сильно выигрываем в размерности, слова более-менее группируются по частям речи, и даже можно так всё сделать, что вектор для "столы" минус вектор для "стол" будет примерно тем же, что и "стулья" минус "стул"; можно отловить даже по смыслу - частное минус общее сохраняется, а "принцесса" плюс "король" даёт "королеву" ))

Показать полностью

	Матемаг Онлайн 9 августа 2014
задумался, осмысляя

	Cheery Cherry 9 августа 2014
(Просто это тоже интересно, по-моему)

	Матемаг Онлайн 9 августа 2014
Да.

	William Cafferty Автор 1
	vimosya Автор 1, Иллюстратор 1
	Nick4323 Автор 2
	ViktoR_42 Автор 1
	Victor Nemarin Автор 4