суббота, 3 марта 2012 г.

Наконец-то грянет революция!

Compreno — это протест против непреодолимых ограничений существующих систем машинного перевода.

Compreno хорошо визуализирована. Разбор предложения виден на каждой стадии.

Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование.

Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач.

Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями. Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой USH (Universal Sematic Hierarchy).

USH – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «путешествие»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «командировка»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее, так как, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ».

Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.

Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:

- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
- Морфологический анализ (определение грамматических характеристик лексем);
- Синтаксический анализ (установление структуры предложения);
- Семантический анализ (выявление выражаемого значения в системе языка);
- Синтез из универсальной семантической структуры предложения на выходном языке.

Комментариев нет: