Ученые институтов Академии наук Татарстана, IT-специалисты, деятели культуры обсудили на круглом столе возможности цифровизации татарского языка, культуры и научных исследований. Подробности – в репортаже «Интертата» с мероприятия, которое прошло во Всемирном конгрессе татар.
О чем говорили на круглом столе во Всемирном конгрессе татар

«Надо полностью адаптировать искусственный интеллект к татарскому языку»
Директор Института прикладной семиотики АН РТ Ринат Гильмуллин в своем выступлении подчеркнул важность цифровизации татарского языка.
По его словам, у языка, который не используется в цифровой среде, нет будущего.«Мы работаем в этом направлении с 90-х годов. Если на начальном этапе это была только компьютеризация, то сейчас идет цифровизация всего. Например, мы реализуем такие важные проекты, как программа перевода «Татсофт», программы распознавания речи, озвучивания и другие. Кроме того, мы создали онлайн-энциклопедию «Татарика», она включает в себя более 26 тысяч слов. Но стоит задача привести эти ресурсы в удобный для пользователей формат.
Цифровизация – это основной способ обеспечить татарскому языку место в будущем. Без создания новых моделей не будет развития. Чтобы создавать основанные на татарском языке модели ИИ, нужны большие корпуса (массивы текстов, – прим. Т-и), системы лингвистического анализа и мощные сервера. Но в настоящее время этих ресурсов не хватает. Нам нужно полностью адаптировать искусственный интеллект к татарскому языку», – заключил он.
«Если открываешь с телефона, то это как «муравьиный мир» – текст очень мелкий»
Руководитель отдела Института языка, литературы и искусства имени Г. Ибрагимова АН РТ Ринат Сафаров рассказал, какая ведется работа в рамках программы сохранения государственных языков. Он подчеркнул важность государственных программ и академических исследований для устойчивого развития татарского языка в цифровой среде.
«В рамках программы сохранения государственных языков в нашем институте действуют электронные проекты, направленные на развитие татарского языка. Некоторые из них используются для узких научных задач, а некоторые адресованы широкой общественности, как, например, словари. Если раньше были широко распространены радио и телевидение, то сегодня важными инструментами для изучения и использования языка являются искусственный интеллект и цифровые платформы. Учитывая эти изменения, наш институт работает по четырем основным направлениям:
1. Язык – проекты по ресурсам, направленным на изучение и развитие татарского языка.
2. Литература – сохранение и популяризация татарской художественной литературы.
3. Искусство – оцифровка материалов, относящихся к национальному искусству.
4. Национальное образование – проекты, направленные на расширение возможностей обучения на татарском языке», – сообщил он.
С 2014 года ИЯЛИ работает над созданием электронной библиотеки. Все книги размещаются на сайте в электронном формате, но возможности их продажи нет, так как институт – некоммерческая организация. Научная продукция тоже выкладывается в электронной библиотеке, но поскольку многотомные словари, в том числе татарско-русские и орфографические, выпускаются коммерческими издательствами, разместить их на сайте невозможно.
Согласно программе, ежегодно институт выпускает четыре-пять словарей. На сегодняшний день готово 56 словарей, распределенных на пять тематических зон. С учетом всех позиций в фонде 76 словарей. Однако у системы есть и некоторые недостатки:
- отсутствие общего логотипа;
- один и тот же термин в разных словарях дается в разных вариантах, что создает смысловые противоречия;
- система нуждается в совершенствовании, но ресурсов не хватает;
- необходимо разработать мобильную версию, но для этого не хватает специалистов и возможностей. Если смотреть на компьютере, платформа удобная, а если открываешь с телефона, то это как «муравьиный мир», текст очень мелкий», – отметил Сафаров.
По его словам, сейчас реализуются два крупных проекта – электронный архив татарской художественной литературы, в котором собран материал из 15 миллионов слов, и русско-татарский параллельный корпус [текстов] на 400 тысяч слов.
В настоящее время работа по созданию русско-татарских параллельных ресурсов приостановлена из-за нормативов законодательства. Если развитие этого направления будет продолжено, то качество перевода улучшится, а словари станут более совершенными и удобными в использовании, считает Ринат Сафаров.
Он также подчеркнул важность сбора и составления базы топонимов татарского языка.
«Исторические названия сел, полей, гор, рек исчезают. Часть топонимов нам известны, но очень много таких, которые знают только местные жители, возможно, они сами дали эти названия. Собрать их, создать их базу – это огромное наследие для будущих поколений. Хочется изучить географические названия не только в Татарстане, но и во всех регионах, где проживают татары», – сказал он.
«70-80 процентов текстов оцифрованы, но их невозможно найти в открытых источниках»
ML-разработчик, представитель сообщества «Ясалма» («Нейротатарлар») Дмитрий Гайнуллин, живущий сейчас во Франции, участвовал в заседании круглого стола онлайн. Он занимается набором больших корпусов и обучением моделей. Дмитрий отметил, что для развития нейронных моделей необходимы объемные, качественные тексты, однако эта работа осложняется из-за ограниченности ресурсов и проблем с авторскими правами, особенно при включении в корпус качественных литературных произведений.
Для решения проблемы нехватки ресурсов важно сотрудничество с различными организациями. При правильной аргументации техническую поддержку могут оказать такие платформы, как Google Cloud, отметил Гайнуллин.
Руководитель автономной некоммерческой организации «Татнефть-Наследие» Мария Минеева рассказала о проделанной работе в сфере цифровизации.
«Мы сотрудничаем с библиотекой КФУ, уже 21 год занимаемся оцифровкой книг. В настоящее время ведем работу по изучению частных коллекций и размещению их на сайте. Однако полностью оцифровать материалы, написанные на «иске имля» (вариант арабской письменности, использовавшийся в татарском языке до 1920 года, – прим. Т-и), пока не планируется. В этом направлении нужна поддержка на государственном уровне. Цифровизация – один из способов сохранить татарскую культуру», – напомнила Минеева.
Работа в этом направлении ведется и в ИЯЛИ.
«70-80 процентов текстов оцифрованы, но их невозможно найти в открытых источниках. Если бы этот процесс был усовершенствован, он был бы очень полезен и для проектов на казахском и киргизском языках», – добавил к сказанному представитель института Ринат Сафаров.
«Не хватает системы распознавания текста из изображения»
Что касается текстов на «иске имля», то попытка обучить ИИ распознавать такие тексты уже предпринималась. Об этом рассказал председатель Всемирного форума татарской молодежи Райнур Хасанов. По его словам, на уроках по ИИ, которые он проводит в рамках проекта «Акыл фабрикасы», искусственному интеллекту дали такой татарский текст. Сначала он не смог его прочитать, но, получив разъяснения по правилам написания, сумел изложить содержание в виде краткой аннотации. Но технология, конечно, еще требует совершенствования.
Следующий спикер, ученый и режиссер Ильшат Саетов рассказал об опыте работы с османскими текстами. В ходе обсуждения API он подчеркнул, что серверы не выдерживают перегрузок: «Если бы для доступа к API была создана отдельная система логин-пароль, эта проблема была бы решена».
Дмитрий Гайнуллин отметил, что для сохранения и развития татарского языка должно быть больше открытых дата-сетов. Он также обратил внимание на то, что они не обновляются: «Университет Назарбаева обещал, что материалы скоро выйдут, но до сих пор ничего нет». Ринат Гильмуллин, комментируя этот момент, сообщил, что поднимет соответствующий вопрос в рамках сотрудничества с Университетом Назарбаева.
«Моя главная задача – создать антиплагиат для татарского языка, – заявила инженер Изида Хаялиева. – Для этого мы собираем и обрабатываем различные тексты. Но есть одна большая проблема: не хватает системы распознавания текста из изображения. Если бы были такие модели, наша работа шла бы намного проще», – сказала она.
«Многие термины не имеют перевода на татарский язык»
Еще один представитель сообщества «Ясалма» («Нейротатарлар») Ильгиз Зигангиров, который занимается переводом Телеграма на татарский язык, обратил внимание на отсутствие многих терминов на татарском языке.
«Когда переводишь текст, возникает большая трудность – многие термины не имеют перевода на татарский язык. Их разработка и внедрение являются важной задачей», – сказал он.
Ринат Сафаров отметил, что работа по созданию терминологии тоже ведется.
«Мы планируем добавить в словари около ста неологизмов. Сами находим и оформляем незарегистрированные слова. Это будет толковый словарь. Самая большая проблема – создание татарско-русского варианта слов. Но это очень сложный вопрос. Если, к примеру, хочешь перевести биологический термин, нужно рыться в учебниках по биологии для 7-8 классов. А что делать в нашем случае? Для упорядочения исторических, технологических и бытовых терминов необходим отдельный проект», – сказал он.
Руководитель студии «Теория» Ильдар Аюпов добавил:
«Если нет нужного слова, его можно придумать. Но, например, мы пытались ввести татарский вариант слова «монитор», однако он не пользовался популярностью у публики. Новые слова для терминов в татарском языке придумываются, но внедрить их сложно».
Участники круглого стола предложили каждый год определять «слово года», тем самым отмечая новые слова, вошедшие в татарский язык, и искать способы их популяризации.
«Многие пишут «хочу работать», но дальше слов дело не идет»
Расим Хусаинов, который перевел Телеграм на татарский язык, ознакомил коллег с проектом «Безнең тәҗрибә» («Наш опыт»):
– Эту работу начал в 2015 году Газиз Фаттах. Сейчас он больше занят развитием канала на YouTube, но наш проект все еще продолжается. Мы занимаемся переводом иноязычных видео на татарский язык. Каждый может себя попробовать. Но даже несмотря на то, что есть много людей, которые пишут «хочу работать», до дела не доходит. В этом году мы начали работать с профессиональными актерами. Например, перевели две серии аниме-сериала «Берсерк». Но создание дубляжа на татарском языке зависит от энтузиазма и личных финансов. Хотелось бы, чтобы люди знали, что мы делаем это за свои деньги. Наши актеры получают меньше денег, чем в других проектах, но соглашаются и за такую цену и помогают создавать контент на татарском языке. Перевод одной серии обходится примерно в 10-12 тысяч рублей. Это для 20-минутного эпизода, – пояснил он.
Ученик 11 класса Нурислам Денисов вместе со своей командой создал приложение «Ләйлек» («Аист»), которое помогает родителям выбрать имя для своего ребенка. С его помощью пользователи могут найти красивые татарские имена с благородным значением. В приложении есть возможность искать имена по категориям – с богатым смыслом, красивым звучанием – или же редкие имена. Как рассказал автор, проект был выпущен на маркетплейс, но платформа RuStore его не приняла, посчитав татароязычные приложения несовместимыми с русскоязычной аудиторией. «Есть возможность их установки на русском или даже на английском языке, однако на татароязычную версию накладываются ограничения. Это серьезный барьер для цифровых продуктов на татарском языке», – сказал Нурислам.
В заключение участники отметили, что для ускорения цифровизации татарского языка необходима государственная поддержка. «Нам нужны гранты для крупных проектов, мощные серверы, программисты. Без цифровизации сфера применения татарского языка будет сокращаться с каждым днем», – уверены они.
Сохранение языка означает не «музеефикацию» его, а активное использование в повседневной жизни, в мире технологий. Как показал круглый стол, сегодня имеются большие возможности для цифрового развития татарского языка, но для их реализации нужны государственная поддержка, специалисты и финансирование. Только если язык повернется лицом к цифровизации, он сможет стать естественной средой общения для будущих поколений.
Айзиля Абдрахманова, Intertat.tatar, перевод с татарского
Фотографии Нияза Гатауллина
Читайте нас:
Дзен - https://dzen.ru/tatar-inform.ru
ВК - https://vk.com/tatarinform
Телеграм - https://t.me/iatatarinform
Свежие комментарии