Ну, у нас было задание - взять собрание текстов разных новостей, поделить их по дням, сделать алгоритм, который делит тексты одного дня по темам, сколько их определит - чтобы в одной теме рассказывалось об одном и том же событии, потом в текстах об одном событии понаходить перефразирования (одна новость говорит "В Германии ввели монархию", другая "Германия стала королевством"), скормить найденные пары Moses - машинному переводу, провести оценивание, что получится.
Есть еще модная штука - анализировать Твиттер. Например, что люди пишут о продуктах Samsung. Нужно заставить работать автоматическое выкачивание Твиттера с фильтром на Самсунг и разработать алгоритм, который будет оценивать, твит положительный или отрицательный. И выбирать те твиты, которые стоит показывать живому человеку, аналитику ("Гребаный Самсунг" - это мусор, пусть только учитывается как негативный отзыв, а "Мой Galaxy S6 Edge перестал работать на второй де-е-ень!" - может, и нет).