Категории именованных сущностей: PER - люди, LOC - географические объекты, ORG - организации, MISC - остальное. Необходимо реализовать следующие этапы: токенизация. простой токенизатор на питоне я нашла здесь:
http://www.cavar.me/damir/resources/tokenizer.py.html необходимо перевести на язык си++ POS-tagged. описание и реализация на питоне здесь:
http://habrahabr.ru/post/125988/ перевести на си++ там же есть и ссылка на корпус русского языка далее реализовать 2 алгоритма: 1) простой алгоритм 1. Производится поиск слова S написанного с заглавной буквы или аббревиатуры, S добавляется в [P], S ищется в словарях классов и помечается как B-; 2. В [P] включаются все аббревиатуры и слова, написанные с заглавной буквы, которые следуют непосредственно за S и относятся к тому же классу, помечаются I-. 3. Если последовательность [P] заканчивается прилагательным, то в [P] также включается и существительное, к которому оно относится (предполагаем, что это ближайшее справа существительное). 2)svm. с использованием библиотеки libsvm Видимо, аналогично POS-tagged ПРОБЛЕМЫ: 1) найти словари с именами, географическими объектами, организациями на русском языке 2) найти корпус русского языка с разметкой для классификации именованных сущностей