Выделение именованных сущностей из текстов на русском языке

shasha

Был(а) на сайте 5 лет назад

Отменен

Заказ

85459

Раздел

Программирование

Предмет

Другое

Тип работы

Курсовая работа

Антиплагиат

Не указан

Срок сдачи

Не определен

Цена

Договорная

Блокировка

10 дней

Размещен

16 Мая 2013 в 10:26

Просмотров

323

Описание работы

Категории именованных сущностей: PER - люди, LOC - географические объекты, ORG - организации, MISC - остальное. Необходимо реализовать следующие этапы: токенизация. простой токенизатор на питоне я нашла здесь: http://www.cavar.me/damir/resources/tokenizer.py.html необходимо перевести на язык си++ POS-tagged. описание и реализация на питоне здесь: http://habrahabr.ru/post/125988/ перевести на си++ там же есть и ссылка на корпус русского языка далее реализовать 2 алгоритма: 1) простой алгоритм 1. Производится поиск слова S написанного с заглавной буквы или аббревиатуры, S добавляется в [P], S ищется в словарях классов и помечается как B-; 2. В [P] включаются все аббревиатуры и слова, написанные с заглавной буквы, которые следуют непосредственно за S и относятся к тому же классу, помечаются I-. 3. Если последовательность [P] заканчивается прилагательным, то в [P] также включается и существительное, к которому оно относится (предполагаем, что это ближайшее справа существительное). 2)svm. с использованием библиотеки libsvm Видимо, аналогично POS-tagged ПРОБЛЕМЫ: 1) найти словари с именами, географическими объектами, организациями на русском языке 2) найти корпус русского языка с разметкой для классификации именованных сущностей

Нужна такая же работа?

Разместите заказ
Выберите исполнителя
Получите результат

Гарантия на работу	1 год
Средний балл	4.96
Стоимость	Назначаете сами
Эксперт	Выбираете сами
Уникальность работы	от 70%

Предыдущий заказ

"Исследование систем управления" - теория

Следующий заказ

информатика

Нужна аналогичная работа?

Оформи быстрый заказ и узнай стоимость

Гарантированные бесплатные доработки

Быстрое выполнение от 2 часов

Проверка работы на плагиат

Темы журнала

Прямой эфир