Новый алгоритм расшифровывает древние языки при помощи родственных слов

05.07.2019
1737
0

Алгоритм-дешифровщик, представленный американскими учеными, работает по новому принципу. На смену параллельным корпусам, которые используются в классическом машинном переводе, пришел анализ сходных лексем родственных языков.

При работе с параллельными текстами система обучается благодаря уже имеющимся примерам переводов. Но когда речь идет о древних текстах, у которых не существует примеров перевода, процесс усложняется. Требуется глубокий анализ: определение родственных языков, предположения о написанном на основе исторических данных, сравнение с другими текстами того же времени. Такой метод уже использовался при работе с системами автоматической расшифровки языка, но результаты не всегда были достаточно точны и зависели от определенного языка.

Представленная исследователями Массачусетского технологического института система способна дешифровать любой язык без использования параллельных корпусов, основываясь на работе рекуррентных нейросетей с долгой краткосрочной памятью. Система получает текст на неизвестном и его известном родственном языках, составляет словарь соответствий и на основе них определяет пары когнатов.

Алгоритм уже обучили и опробовали для расшифровки угаритского письма на основе иврита и линейного письма Б на основе древнегреческого. Также определили когнаты между испанским, итальянским и португальским. В среднем точность работы системы достигает 90%.

В дальнейшем планируется использовать новый алгоритм для языков, которые еще не были дешифрованы, к примеру, линейное письмо А.

Источник

Препринт оригинальной статьи

Комментарии 0

Чтобы оставить комментарий, пожалуйста, войдите или зарегистрируйтесь