Использование mystem

Mystem — консольная программа. Ее следует запускать в терминале.

Программу можно использовать так:

Вызов

$ mystem [опции] [входной файл] [выходной файл]

В результате mystem будет читать ввод и записывать результат своей работы в указанные файлы. Если имена файлов опущены, или если вместо имени указано "-", то будет использоваться стандартный ввод/вывод, соответственно.

Примеры

$ mystem

на входе - стандартный ввод, на выходе -
стандартный вывод
$ mystem input

на входе - файл input, на выходе -
стандартный вывод
$ mystem - output

на входе - стандартный ввод, на выходе -
файл output
$ mystem input output

на входе - файл input, на выходе -
файл output

Стандартный ввод и вывод, естественно, можно тоже перенаправлять:

$ mystem <input>output

Опции

Опции надо указывать по правилам UNIX - до имен файлов, при этом можно склеивать, комбинировать, и т.д.

-n

Построчный режим; каждое слово печатается на новой строке.

-c

Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки.

Опция необходима для возврата к полному представлению текста.

В случае построчного вывода (когда задана опция n) межсловные промежутки вытягиваются в одну строку, символы перевода строки заменяются на \r и/или \n.

Пробел для большей видимости заменяется на подчеркивание.

Символ \ заменяется на \\, подчеркивание на \_.

Таким образом можно однозначно восстановить исходный текст.

-w

Печатать только словарные слова.

-l

Не печатать исходные словоформы, только леммы и граммемы.

-i

Печатать грамматическую информацию, расшифровка ниже.

-g

Склеивать информацию словоформ при одной лемме (только при включенной опции -i).

-s

Печатать маркер конца предложения (только при включенной опции -c).

-e

Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию).

-d

Применить контекстное снятие омонимии.

--eng-gr

Печатать английские обозначения граммем.

--filter-gram

Строить разборы только с указанными граммемами.

--fixlist

Использовать файл с пользовательским словарём.

--format

Формат вывода.

Возможные варианты: text, xml, json. Значение по умолчанию — text.

--generate-all

Генерировать все возможные гипотезы для несловарных слов.

--weight

Печатать бесконтекстную вероятность леммы.

В этой статье: