Томита-парсер
Томита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка. Исходный код проекта открыт и выложен на GitHub.
Файлы
Примеры для всех ОС
examples.zip
27,42 КБ
Windows
Linux
FreeBSD
MacOS
tomita-mac.bz2
35,55 МБ
Примеры извлекаемых фактов
  • дата рождения (Ричард Гир родился 31 августа 1949 года);
  • родственные связи (Ричард Гир женат на Кэри Лоуэлл);
  • роли в кино (Ричард Гир — звезда фильма «Красотка»);
  • адреса организаций (Офис Яндекса находится на улице Льва Толстого в доме 16).