Изучить теоретический материал по обработке и анализу текстовой информации
Собрать коллекцию произведений(книг) классической, современной и технической литературы в формате fb2
Написать программу на языке python 3.6 в среде разработки PyСharm выполняющую
Загрузку для обработки текста из файлов формата fb2
Разбиение текста на слова и предложения с последующим сохранением в текстовые файлы с названиями words_название_произведения.txt, sentences_название_произведения.txt)
Построение словаря произведения с сохранением в текстовый файл dict_название_произведения.txt. В файле напротив каждого слова должно быть приведено число появления этого слова в произведении (это необходимо для расчета частоты встречаемости)
Построение словаря произведения с удаленными местоимениями с сохранением в текстовый файл dict_without_pronouns_название_произведения.txt. В файле напротив каждого слова должно быть приведено число появления этого слова в произведении (это необходимо для расчета частоты встречаемости)
Построение словаря произведения с удаленными местоимениями и стоп-словами с сохранением в текстовый файл dict_without_stop_words_название_произведения.txt. В файле напротив каждого слова должно быть приведено число появления этого слова в произведении (это необходимо для расчета частоты встречаемости)
Построение словаря с удаленными местоимениями и стоп-словами и выполненным стеммингом
Построение списка слов характеризующего словарный запас автора произведения (с сохранением в текстовый файл с названием lexicon_фио_автора.txt)
Составление списка словосочетаний (для технической литературы)
Провести анализ полученных результатов.
Попытаться ответить на вопросы
Насколько схож и/или различен лексикон авторов классической литературы и современных авторов
Насколько схожи и/или различны произведения одного автора