В Чечне занялись локализацией приложений и компьютерных программ

В Грозном группа ученых решила локализовать компьютерные программы и мобильные приложения. Локализация в общем смысле предполагает языковую и культурную адаптацию цифровых продуктов исходя из национальных особенностей отдельных регионов. В России программы, приложения, видеоигры чаще всего выпускаются на русском и английском языках. Работа северокавказских ученых позволит перевести их на чеченский.

Примечательно, что проект, который предполагал на старте главным образом проверку правописания набранных на чеченском языке текстов, в итоге подстегнул развитие национальной грамматики в целом. Работой занимаются в отделе семиотики Академии наук Чеченской Республики. Как рассказал корреспонденту "РГ" заведующий отделом, доктор физико-математических наук Салаудин Умархаджиев, к ней приступили в 2014 году.

- Сейчас повсеместно пользуются компьютерами. Когда мы набираем текст на русском или английском языках и неправильно пишем слово, оно подчеркивается. Но для чеченского такой функции нет. Наши молодые люди, общаясь на родном языке, допускают множество ошибок. Ведь каждый раз к бумажным словарям не обратишься, - говорит Умархаджиев.

Так и родилась идея заняться цифровизацией чеченского языка. У этой работы, действительно, есть и коммерческие перспективы. Первый шаг разработчиков приложений или программ при выходе на зарубежный рынок - локализация их продукта. Чаще всего это именно перевод программы на язык той страны, для которой она выпускается.

Конечно, базовый язык - английский. Но для выхода на рынки арабских или азиатских стран обязательно потребуется перевод на местные языки, особенно если речь идет о компьютерных играх. Локализуя продукт, важно учитывать множество факторов, в том числе религиозные традиции или государственный строй.

Чеченские ученые попытались обратиться к опыту коллег из других регионов России, но, как выяснилось, ранее такой работой занимались только в Татарстане. Туда и отправились северокавказские языковеды, а после возвращения вплотную занялись этой темой. К работе привлекли студентов.

- Мы сделали автоматическую проверку орфографии для чеченских текстов. Сложность заключалась в недостаточной изученности чеченского языка. Двуязычных и орфографических словарей совсем мало, и все они в бумажном виде. Чтобы компьютер мог с ними работать, их нужно было перевести в машинно-обрабатываемый формат. Мы это сделали, - продолжает Умархаджиев.

Для чеченского языка автоматическую систему проверки орфографии пришлось создать с нуля. Так появилась лингвистическая база, которая содержит около трех миллионов слов. Но проблемы возникли в связи с попыткой локализовать приложения Microsoft. Этой компании принадлежит один из самых популярных офисных пакетов, и исходный код приложений здесь закрытый, то есть работать с ними IT-компании могут только, если им предоставят нужные данные.

- Мы напрямую обратились в корпорацию с предложением добавить чеченскую локализацию в их программы. Нам посоветовали сделать запрос на специальном сайте для пользователей. Нас, кстати, многие поддержали, но Microsoft не проявил интереса. Тогда мы направили официальное письмо в офис российского представительства корпорации. Но и там нас проигнорировали, - рассказывает Умархаджиев.

Он подчеркнул, что в Татарстане эту проблему удалось решить после того, как к делу подключилось местное правительство, которое заключило соглашение с иностранной компанией. Тем же путем собираются пойти и в Чечне. Параллельно с этим работают над локализацией мобильных устройств на базе Android и IOS. На Linux, кстати, уже существует проверка правописания чеченских слов.

- Сейчас ждем издания нового большого орфографического словаря, работа над которым идет полным ходом. Тогда мы обновим и базу в три миллиона слов, - добавил ученый.

Кроме этого, сотрудники академии синтезировали чеченскую речь. Помог в этом выигранный грант от российского Фонда содействия инновациям размером в два миллиона рублей. Ученые наняли профессионального диктора, который начитал тексты продолжительностью 20 часов. Именно они и стали основой для синтеза речи. Сейчас разработчики ищут способ загрузить программу на серверы высокой производительности, так как персональным компьютерам не хватает мощностей для быстрой обработки данных. .

Комментарий

Семен Буров, руководитель IT-компании:

- Локализация приложения, системы или какого-то цифрового продукта - гораздо более обширная работа, чем может показаться на первый взгляд. Чтобы пользователи увидели на смартфоне или в компьютере тексты на своем языке, нужна многоуровневая операция. Более того, каждый конкретный продукт требует отдельной работы. Самые распространенные современные операционные системы - Windows, MacOS, IOS, Android и Linux. И для всех нужны разработки чуть ли не с нуля.

А если речь идет о каком-то национальном языке, то необходимо еще больше усилий, так как многое придется делать впервые. А кроме того, нужны специалисты, которые бы владели этим языком. В общем, все упирается в рентабельность и запрос от пользователей. Если вложения оправдают усилия, то этой работой будут заниматься. В противном случае единственным способом провести языковую локализацию станет какая-то государственная программа. Но коммерческий продукт все же эффективнее.