Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

Об этом сообщает Naked Science.

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди. Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

Новый Завет поможет в спасении исчезающих языков

НАТО: Китай должен прекратить помощь России для хороших отношений с Западом

Генсек НАТО напомнил, что Китай заявляет о желании "хороших отношений с Западом"

Россия незаконно удерживает тысячи украинцев на оккупированных территориях - ОБСЕ

Число незаконно содержащихся гражданских лиц невозможно точно посчитать

Франция предлагает новые санкции ЕС по борьбе с пропагандой РФ

В преддверии выборов в Европарламент в июне ЕС сделал своим приоритетом борьбу с растущей волной российской дезинформации

Чернышов ответил, планирует ли "Нафтогаз" повышать тарифы на газ

Как долго будет действовать цена 7,96 гривен за кубометр

В Украине введут новую систему определения пригодности к воинской службе

Пригодных мужчин будут разделять на четыре категории

Сикорский рассказал, как война в Украине может завершиться за пять минут

Путин мог бы закончить войну за пять минут одним телефонным звонком Шойгу

В Минфине США назвали варианты решения проблемы с замороженными активами РФ

Полная конфискация российских активов оправдана с точки зрения международного права, заявили в США

В Украине обновили правила увольнения: за что можно остаться без работы

По каким причинам работодатели теперь смогут увольнять сотрудников

Подоляк ответил, где украинцы смогут получить загранпаспорта

Планируют ли власти страны запускать дистанционные документы

США выделят $6 млрд на заказ оружия для Украины, - Остин

Что будет в самом крупном пакете

НАТО: Китай должен прекратить помощь России для хороших отношений с Западом

Россия незаконно удерживает тысячи украинцев на оккупированных территориях - ОБСЕ

Франция предлагает новые санкции ЕС по борьбе с пропагандой РФ

Чернышов ответил, планирует ли "Нафтогаз" повышать тарифы на газ

В Украине введут новую систему определения пригодности к воинской службе

Сикорский рассказал, как война в Украине может завершиться за пять минут

В Минфине США назвали варианты решения проблемы с замороженными активами РФ

В Украине обновили правила увольнения: за что можно остаться без работы

Подоляк ответил, где украинцы смогут получить загранпаспорта

США выделят $6 млрд на заказ оружия для Украины, - Остин

Под Киевом пьяный чиновник сбил людей на переходе: видео

Украину ждет турборежим в энергетике: повышение тарифов и графики отключений неизбежны

Германия приняла судьбоносное для Украины решение: пример для других стран

СБУ прокомментировала провокационные заявления КГБ Беларуси про больницы в Киеве

В Кабмине решили, что будет с тарифами на тепло, газ, электричество и горячую воду: сроки

НАТО: Китай должен прекратить помощь России для хороших отношений с Западом

Генсек НАТО напомнил, что Китай заявляет о желании "хороших отношений с Западом"

Россия незаконно удерживает тысячи украинцев на оккупированных территориях - ОБСЕ

Число незаконно содержащихся гражданских лиц невозможно точно посчитать

Франция предлагает новые санкции ЕС по борьбе с пропагандой РФ

В преддверии выборов в Европарламент в июне ЕС сделал своим приоритетом борьбу с растущей волной российской дезинформации

Чернышов ответил, планирует ли "Нафтогаз" повышать тарифы на газ

Как долго будет действовать цена 7,96 гривен за кубометр

В Украине введут новую систему определения пригодности к воинской службе

Пригодных мужчин будут разделять на четыре категории

Сикорский рассказал, как война в Украине может завершиться за пять минут

Путин мог бы закончить войну за пять минут одним телефонным звонком Шойгу

В Минфине США назвали варианты решения проблемы с замороженными активами РФ

Полная конфискация российских активов оправдана с точки зрения международного права, заявили в США

В Украине обновили правила увольнения: за что можно остаться без работы

По каким причинам работодатели теперь смогут увольнять сотрудников

Подоляк ответил, где украинцы смогут получить загранпаспорта

Планируют ли власти страны запускать дистанционные документы

США выделят $6 млрд на заказ оружия для Украины, - Остин

Что будет в самом крупном пакете

НАТО: Китай должен прекратить помощь России для хороших отношений с Западом

Россия незаконно удерживает тысячи украинцев на оккупированных территориях - ОБСЕ

Франция предлагает новые санкции ЕС по борьбе с пропагандой РФ

Чернышов ответил, планирует ли "Нафтогаз" повышать тарифы на газ

В Украине введут новую систему определения пригодности к воинской службе

Сикорский рассказал, как война в Украине может завершиться за пять минут

В Минфине США назвали варианты решения проблемы с замороженными активами РФ

В Украине обновили правила увольнения: за что можно остаться без работы

Подоляк ответил, где украинцы смогут получить загранпаспорта

США выделят $6 млрд на заказ оружия для Украины, - Остин

Под Киевом пьяный чиновник сбил людей на переходе: видео

Украину ждет турборежим в энергетике: повышение тарифов и графики отключений неизбежны

Германия приняла судьбоносное для Украины решение: пример для других стран

СБУ прокомментировала провокационные заявления КГБ Беларуси про больницы в Киеве

В Кабмине решили, что будет с тарифами на тепло, газ, электричество и горячую воду: сроки

МОУ закупало чешские винтовки втридорога, - офицер ВСУ

Четверть украинцев уделяет новостям больше времени в мессенджере — опрос Viber

Украинские ОО STEM is FEM и Impact Force предоставляют ноутбуки детям для продолжения обучения во время войны: как получить

Полиция устроила маски-шоу в киевском отеле для ролевых игр