Compreno — это протест против непреодолимых ограничений существующих систем машинного перевода.
Compreno хорошо визуализирована. Разбор предложения виден на каждой стадии.
Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование.
Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач.
Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями. Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой USH (Universal Sematic Hierarchy).
USH – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «путешествие»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «командировка»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее, так как, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ».
Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.
Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:
- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
- Морфологический анализ (определение грамматических характеристик лексем);
- Синтаксический анализ (установление структуры предложения);
- Семантический анализ (выявление выражаемого значения в системе языка);
- Синтез из универсальной семантической структуры предложения на выходном языке.
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий