Выделение именованных сущностей из текстов на русском языке

Отменен
Заказ
85459
Раздел
Программирование
Предмет
Другое
Антиплагиат
Не указан
Срок сдачи
Не определен
Цена
Договорная
Блокировка
10 дней
Размещен
16 Мая 2013 в 10:26
Просмотров
323
Описание работы
Категории именованных сущностей: PER - люди, LOC - географические объекты, ORG - организации, MISC - остальное. Необходимо реализовать следующие этапы: токенизация. простой токенизатор на питоне я нашла здесь: http://www.cavar.me/damir/resources/tokenizer.py.html необходимо перевести на язык си++ POS-tagged. описание и реализация на питоне здесь: http://habrahabr.ru/post/125988/ перевести на си++ там же есть и ссылка на корпус русского языка далее реализовать 2 алгоритма: 1) простой алгоритм 1. Производится поиск слова S написанного с заглавной буквы или аббревиатуры, S добавляется в [P], S ищется в словарях классов и помечается как B-; 2. В [P] включаются все аббревиатуры и слова, написанные с заглавной буквы, которые следуют непосредственно за S и относятся к тому же классу, помечаются I-. 3. Если последовательность [P] заканчивается прилагательным, то в [P] также включается и существительное, к которому оно относится (предполагаем, что это ближайшее справа существительное). 2)svm. с использованием библиотеки libsvm Видимо, аналогично POS-tagged ПРОБЛЕМЫ: 1) найти словари с именами, географическими объектами, организациями на русском языке 2) найти корпус русского языка с разметкой для классификации именованных сущностей
Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир