|
#хочуздравуюидеюикофебезсахара #завернитессобой
Как ещё можно автоматически повылавливать болтовню в комментариях? Сейчас я считаю, что болтовня начинается на ник пользователя из стольки-то отписавшихся выше. Междусобойчик типа такого (последние) оно не ловит. Может, есть какой здравый способ ещё? Я подумывала о "и если все ближайшие маркированы как беседы, то это тоже беседа", но это скорее вроде неправда, чем правда. 21 января 2015
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
Я бы предложила эвристики такого рода:
-смайлики -лексика: использование обращений (моя дорогая), всяких "ты", "вы" -разница между комментами менее фиксированного промежутка времени -коммент пользователя, ник которого упоминался чуть раньше(особенно если этот коммент, содержит ник того, кто его упомянул) Возможно, некоторые из этих эвристик глупы. Но по сравнению с вами я просто глупая маленькая девочка, так что прошу меня простить :3 |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
Можно еще завести граф людей, любящих между собой болтать, и на его основе что-то оценивать
(ну как граф - просто список, конечно) |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
Ну у вас же не дискретная шкала 0/1 ?
посчитать какие-то шаманские процентики на основе каждого из показателей, если они преодолели заданный порог (Х) настоятельно предупреждать а если чуть меньше то просто предупреждать |
|
|
Не, никаких процентиков, нужно посносить флуд и разговоры про цветочки, чтобы они не мешались среди данных, с которыми работаем.
|
|
|
С процентиками имеет смысл связываться, если ввязываться в туманные признаки, которые непонятно, сработают, не сработают...
|
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
ну да, т.е. - эвристики шаманские. КСТАТИ
>болтовня начинается на ник пользователя это далеко не верно, например авторы отвечают на вопросы читателей о фике, а потом и те и другие углуюляются в детали по крайней мере, нужно отсеять те комменты, в которых содержатся обращения ко многим юзерам |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
лол) традиционная уличная магия ^^
|
|
|
Угум. Но на удивление неплохо работает, я посмотрела первые отфильтрованные - правда беседы
Правда, для фанфикса это означает довольно огорчающие результаты, я писала тут пропорции отфильтрованных - это правда больше, чем казалось бы нужным) |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
кстати
Если это готовить на использование в онлайне, по-настоящему, нужно будет в php перегнать. нашел где-то ваш коммент хочу отсоветовать изучите лучше Django или Flask - web-фреймворки для питона:) они няшнее этих слоников |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
точно нет?
http://www.solarix.ru/for_developers/api/lemmatizator-api.shtml вот что-то нагуглилось |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
http://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 - вот таблица со списком библиотек и т.п. по работе с нат языками
сорри, если вы уже видели |
|
|
Ну, есть, есть, конечно. Как же не быть, это же русский, а не язык племени мумбайя какого-нибудь :) Но качество работы так себе.
|
|
|
За ссылки спасибо.
|
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
ОК :)
|
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
в том, что с русским все плохо, видно на примере того же google translate и его pronuncation ^)
|
|
|
Я думаю, они просто не особо старались с русским
Так-то мой планшет, например, русский TTS очень даже достойно организовал (Amazon то бишь) |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
надо еще будет посмотреть новую яндекс-диктовку
|
|
|
Думаю, они нормальную систему должны были сделать, у них-то в отличие от гугла мотивация для работы с русским вполне есть)
|
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
реклама на хабре многое обещала. но у них пока бета
|
|
|
Там ничего революционного делать не надо, просто взять рабочий метод, достаточное количество часов начитки - и вперед)
|
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
ну мб
мне вот вокалоиды нравятся(Мику Хатсуне, например :3) |
|
|
нераспознанные слова в вашем сообщении
вокалоиды нравятся(Мику Хатсуне |
|
|
ДНИЩE--ЫЫЫЫ
|
|
|
хе-хе-хе.
лексематизатор кривой, не умеет сплитить по знакам препинания? |
|
|
Есть_{V} такое_{DET}
|
|