Многоязычный словарь Kamusi поможет компьютерным системам перевода текста охватить все языки
Интерактивный многоязычный словарь долгое время был несбыточной мечтой исследователей искусственного интеллекта.
Алгоритмические средства машинного перевода, такие как Переводчик Google, могут с лёгкостью передать слова и грамматические конструкции текста на одном языке в другой язык, но не идентифицируют значение сказанного и не гарантируют в переводе текста корректную передачу значения.
Недавно проблемой перевода текста между сравнительно небольшими языками начали заниматься амбициозные разработчики онлайн-словаря Kamusi. Они собираются скомпоновать все соответствующие друг другу слова всех языков, что в итоге позволит изменить то, как осуществляется машинный перевод между языками. Правда, всё это будет реализовано, если найдётся инвестор.
"Словарь будущего", как называют своё детище разработчики Kamusi GOLD (Global Online Living Dictionary – Всемирный Живой Онлайн-Словарь), был представлен публике на этой неделе вслед за международным днём матери, отмечаемым 21 февраля. Однако сам проект берёт своё начало в далёком 1994 году. Тогда он представлял собой коллективный двуязычный суахили-английский словарь, составленный антропологом и лексикографом Мартином Бенджамином (Martin Benjamin) в его бытность аспирантом Йельского университета. Словарь был назван "Kamusi", что на суахили означает собственно "словарь".
Модель краудсорсинга, использованная при составлении словаря, опередила Википедию на целое десятилетие – обычные люди уже тогда могли по крупицам вносить свой вклад в его построение.
В конечном счёте, проект Kamusi благодаря гранту, полученному от департамента образования США и частных пожертвований перерос в один из самых популярных мировых языковых ресурсов суахили. Но Бенджамин на этом не остановился, и после четырёх лет работы над Kamusi его команда выпустила новую платформу, поддерживающие любые языки мира.
На момент представления в демо-версии Kamusi GOLD содержится по 100 слов пятнадцати языков:, таких как английский, суахили, французский, икигусии, кихехе, японский, турецкий, русский, китайский, казанский татарский, румынский, тсвана, сонгайский, испанский и йейи.
Основное внимание в проекте уделяется африканским языкам, что является логическим продолжением изначальной ориентации Kamusi на суахили и ещё две тысячи языков, на которых говорят в Африке. Согласно AllAfrica, вся работа по программированию словаря была выполнена в Африке. При этом внесла свой вклад (в части славянских и тюркских языков) и команда в Казани, переводчиков русского, татарского и турецкого языков.
В отличие от других словарей, GOLD опирается не только на слова, но и на понятия, что позволит компьютерным средствам перевода текста преодолеть проблему омонимов благодаря контексту.
Материал размещен на сайте Translation-Blog 10 апреля 2013
Комментарий автора сайта Translation-Blog
Для изучения языков Африки проект Kamusi (в случае его успешной реализации), наверняка, мог бы иметь огромное научное значение. Говорить о практической ценности, не видя конечных результатов, преждевременно. Наивно полагать, что кто-то способен в обозримые сроки реализовать такой гигантский проект сразу для столь большого числа языков.
Демо-версия на 100 слов это, конечно, впечатляет. Могу себе представить коммерческую версию рассматриваемого проекта (скажем, на каком-то промежуточном этапе) объемом 1000 слов, но не более того. Особой ценности для машинного перевода словарь такого объема вряд ли будет представлять. Разве что для общения между двумя соседними племенами. Но я очень сомневаюсь, что они будут для этого прибегать к машинному переводу.
Даже если предположить, что в каких-то африканских языках вообще не более 1000-2000 слов, при их лексикографическом описании, наверняка, обнаружатся какие-то дополнительные сложности с формализацией синтаксических связей между этими словами, с преодолением не только омонимиии, но и многозначности. И мало ли что еще!
Ни в коем случае не собираюсь обижать жителей Африки: наряду с Азией это сегодня один из наиболее бурно развивающихся континентов: по крайней мере в демографическом плане. Но смею предположить, что из упоминаемых двух тысяч африканских языков многие попросту не имеют письменности (африканисты могут меня поправить - охотно размещу комментарии). Поэтому в экономическом плане и с точки зрения практической целесообразности будет разумнее обучить африканцев английскому, французскому или каким-то другим мировым языкам.
Владеющие только своим экзотическим африканским диалектом вряд ли смогут успешно учиться в Париже или Лондоне или выступать за какой-нибудь европейский футбольный клуб.
В наш прагматичный век малые и сверхмалые языки по большому счету обречены. Да и тот же Гугл имеет обыкновение закрывать невыгодные онлайн-проекты.
Последняя фраза статьи ("В отличие от других словарей, GOLD опирается не только на слова, но и на понятия, что позволит компьютерным средствам перевода текста преодолеть проблему омонимов благодаря контексту".) звучит слишком многообещающе. На практике вряд ли удастся так легко это сделать. С проблемой омонимии при переводе далеко не всегда успешно справляются переводчики-люди. А куда уж там какому-то, пусть даже продвинутому, машинному переводчику?!
Юрий Новиков, 10 апреля 2013
Родственные темы
- Машинный перевод - отдельная рубрика
- Африканские языки - на сайте "100 языков" (Jazyki.ru)
- Страны Африки - на сайте Strany-Mira.su
- Омонимы и омонимия в русском языке и других языках - на сайте Filologia.su