↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Временно не работает,
как войти читайте здесь!
Cheery Cherry
ДНИЩE--ЫЫЫЫ
Публичное сообщение
21 января 2015
Aa Aa
#хочуздравуюидеюикофебезсахара #завернитессобой
Как ещё можно автоматически повылавливать болтовню в комментариях? Сейчас я считаю, что болтовня начинается на ник пользователя из стольки-то отписавшихся выше. Междусобойчик типа такого (последние) оно не ловит. Может, есть какой здравый способ ещё? Я подумывала о "и если все ближайшие маркированы как беседы, то это тоже беседа", но это скорее вроде неправда, чем правда.
21 января 2015
29 комментариев
ДНИЩE--ЫЫЫЫ
Я бы предложила эвристики такого рода:
-смайлики
-лексика: использование обращений (моя дорогая), всяких "ты", "вы"
-разница между комментами менее фиксированного промежутка времени
-коммент пользователя, ник которого упоминался чуть раньше(особенно если этот коммент, содержит ник того, кто его упомянул)
Возможно, некоторые из этих эвристик глупы.
Но по сравнению с вами я просто глупая маленькая девочка, так что прошу меня простить :3
ДНИЩE--ЫЫЫЫ
Можно еще завести граф людей, любящих между собой болтать, и на его основе что-то оценивать
(ну как граф - просто список, конечно)
Первые два, я думаю, сильно много реальных комментариев почистят :/
Разница, по идее, должна еще выкачивать даты обновления глав — в день выкладки и после комментарии могут ручьем литься, это нормально. С датами можно другое сделать — типа первый раз, как вышла глава, это комментарий, а дальше до следующей главы болтовня
Про упоминание в прошлом не подумала, спасибо.
Угу. Или еще круче. Комментарий к фанфику Северда? Болтовня!
ДНИЩE--ЫЫЫЫ
Ну у вас же не дискретная шкала 0/1 ?
посчитать какие-то шаманские процентики на основе каждого из показателей, если они преодолели заданный порог (Х) настоятельно предупреждать
а если чуть меньше то просто предупреждать
Не, никаких процентиков, нужно посносить флуд и разговоры про цветочки, чтобы они не мешались среди данных, с которыми работаем.
С процентиками имеет смысл связываться, если ввязываться в туманные признаки, которые непонятно, сработают, не сработают...
ДНИЩE--ЫЫЫЫ
ну да, т.е. - эвристики шаманские. КСТАТИ
>болтовня начинается на ник пользователя
это далеко не верно, например авторы отвечают на вопросы читателей о фике, а потом и те и другие углуюляются в детали
по крайней мере, нужно отсеять те комменты, в которых содержатся обращения ко многим юзерам
Да, обычно первый ответ ещё ничего, а потом как покатится ) Я думаю, что эти первые ответы погоды не сыграют, ради простоты можно и их убирать.
Авторские комментарии я автоматически сношу, понятно же, что автор думает, что он бог, что его анализировать :)
У меня стек с историей последних 20, кажется, людей в переписке, и если в первых 66 символах комментария упоминается ник одного из этих двадцати - то сообщение отфильтровывается.
То есть многопользовательность косвенно тоже учтена.
ДНИЩE--ЫЫЫЫ
лол) традиционная уличная магия ^^
Угум. Но на удивление неплохо работает, я посмотрела первые отфильтрованные - правда беседы
Правда, для фанфикса это означает довольно огорчающие результаты, я писала тут пропорции отфильтрованных - это правда больше, чем казалось бы нужным)
ДНИЩE--ЫЫЫЫ
кстати
Если это готовить на использование в онлайне, по-настоящему, нужно будет в php перегнать.

нашел где-то ваш коммент
хочу отсоветовать
изучите лучше Django или Flask - web-фреймворки для питона:)
они няшнее этих слоников
В итоговом приложении python, наверное, будет не нужен. Поскольку всё равно лемматизаторов для русского языка особо нет, определения частей речи тоже, мы постараемся обойтись самым минимумом ресурсов. Итоговый алгоритм будет, увы, прост как тумбочка.
ДНИЩE--ЫЫЫЫ
точно нет?
http://www.solarix.ru/for_developers/api/lemmatizator-api.shtml вот что-то нагуглилось
ДНИЩE--ЫЫЫЫ
http://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 - вот таблица со списком библиотек и т.п. по работе с нат языками
сорри, если вы уже видели
Ну, есть, есть, конечно. Как же не быть, это же русский, а не язык племени мумбайя какого-нибудь :) Но качество работы так себе.
За ссылки спасибо.
ДНИЩE--ЫЫЫЫ
ОК :)
ДНИЩE--ЫЫЫЫ
в том, что с русским все плохо, видно на примере того же google translate и его pronuncation ^)
Я думаю, они просто не особо старались с русским
Так-то мой планшет, например, русский TTS очень даже достойно организовал (Amazon то бишь)
ДНИЩE--ЫЫЫЫ
надо еще будет посмотреть новую яндекс-диктовку
Думаю, они нормальную систему должны были сделать, у них-то в отличие от гугла мотивация для работы с русским вполне есть)
ДНИЩE--ЫЫЫЫ
реклама на хабре многое обещала. но у них пока бета
Там ничего революционного делать не надо, просто взять рабочий метод, достаточное количество часов начитки - и вперед)
ДНИЩE--ЫЫЫЫ
ну мб
мне вот вокалоиды нравятся(Мику Хатсуне, например :3)
нераспознанные слова в вашем сообщении
вокалоиды
нравятся(Мику
Хатсуне
ДНИЩE--ЫЫЫЫ
хе-хе-хе.
лексематизатор кривой, не умеет сплитить по знакам препинания?
Есть_{V} такое_{DET}
ПОИСК
ФАНФИКОВ









Закрыть
Закрыть
Закрыть