Применение алгоритмов интеллектуального анализа текстовых данных

Раздел
Программирование
Тип
Просмотров
190
Покупок
0
Антиплагиат
Не указан
Размещена
9 Ноя 2021 в 20:56
ВУЗ
Не указан
Курс
Не указан
Стоимость
800 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
docx
75информатика 5
970 Кбайт 800 ₽
Описание

Тема выпускной квалификационной работы – «Применение алгоритмов интеллектуального анализа текстовых данных».

Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.

Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.

Оглавление

Введение.................................................................................................................. 5

Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных..................................................................................................................... 7

1.1 Метод токенизации................................................................................. 9

1.2 Частота термина в документе (TF-IDF)................................................ 13

1.3 Методы стемминга и лемматизации..................................................... 15

1.4 Стоп-листинг........................................................................................ 19

Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых

данных................................................................................................................... 22

2.1 Алгоритмы токенизации...................................................................... 22

2.2 Алгоритм TF-IDF................................................................................. 26

2.3 Алгоритм лемматизации WordNet....................................................... 29

2.4 Алгоритмы стоп-листинга.................................................................... 31

Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы............................................................. 35

3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio........................................................................................................... 35

3.1.2 Интегрированная среда разработки PyCharm..................................... 37

3.1.3 Интегрированная среда разработки Eclipse + PyDEv......................... 38

3.2 Реализация и тестирование программы............................................... 41

Заключение............................................................................................................ 44

Список используемой литературы........................................................................ 45

Список литературы

1. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).

2. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).

3. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).

4. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).

5. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.

6. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.

7. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).

8. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.

Вам подходит эта работа?
Похожие работы
Информатика
Контрольная работа Контрольная
16 Мая в 08:20
11 +1
1 покупка
Информатика
Лабораторная работа Лабораторная
16 Мая в 00:10
11
0 покупок
Информатика
Контрольная работа Контрольная
15 Мая в 23:11
5
0 покупок
Информатика
Курсовая работа Курсовая
15 Мая в 21:44
8
0 покупок
Другие работы автора
Банковское дело
Тест Тест
25 Мая 2022 в 19:10
315
1 покупка
Микроэкономика
Тест Тест
20 Мар 2022 в 12:04
311
1 покупка
Адвокатура
Тест Тест
26 Фев 2022 в 18:53
320
3 покупки
Логистика
Тест Тест
26 Фев 2022 в 18:48
312
0 покупок
Право
Тест Тест
26 Фев 2022 в 18:44
778
12 покупок
Педагогика
Тест Тест
26 Фев 2022 в 18:40
323
0 покупок
Социальная психология
Тест Тест
10 Янв 2022 в 19:14
295
3 покупки
Юриспруденция
Задача Задача
10 Янв 2022 в 19:08
370
1 покупка
История
Задача Задача
10 Янв 2022 в 18:54
276
0 покупок
Зарубежная история
Тест Тест
10 Янв 2022 в 18:51
337
3 покупки
Психология
Тест Тест
9 Дек 2021 в 19:28
357
1 покупка
Трудовое право
Тест Тест
9 Дек 2021 в 19:10
325
2 покупки
Правовые основы бизнеса
Тест Тест
9 Дек 2021 в 18:43
205
0 покупок
Педагогика
Тест Тест
7 Дек 2021 в 19:42
212
2 покупки
Педагогика
Тест Тест
7 Дек 2021 в 19:23
319
3 покупки
История
Тест Тест
7 Дек 2021 в 19:01
151
0 покупок
История
Тест Тест
7 Дек 2021 в 18:46
149
0 покупок
История Отечества
Тест Тест
7 Дек 2021 в 18:32
226
0 покупок
Психология
Тест Тест
7 Дек 2021 в 18:22
278
11 покупок
Темы журнала
Показать ещё
Прямой эфир