Самообучение для улучшения системы распознавания речи на казахском языке

Жанибек Кожирбаев

doi:10.32523/2616-7182/bulmathenu.2023/4.2

Авторы

Жанибек Кожирбаев Назарбаев университет

DOI:

https://doi.org/10.32523/2616-7182/bulmathenu.2023/4.2

Ключевые слова:

автоматическое распознавание речи, казахский язык, Wav2Vec 2.0, Wav2Vec2-XLSR, предварительно обученные модели-трансформеры, модели представления речи

Аннотация

В последнее время достижения в нейронных моделях, обученных с использованием обширных многоязычных текстовых и устных данных, продемонстрировали многообещающий потенциал для улучшения ситуации с языками, которым не хватает ресурсов. Это исследование сосредоточено на проведении экспериментов с использованием передовых моделей распознавания речи, в частности, Wav2Vec2.0 и Wav2Vec2-XLSR, применительно к казахскому языку. Основная цель этого исследования — оценить эффективность этих моделей при расшифровке разговорного казахского содержания. Кроме того, исследование направлено на изучение возможности использования данных из других языков для начального обучения и оценку того, может ли уточнение модели с помощью данных целевого языка повысить ее производительность. Таким образом, это исследование предлагает ценную информацию о жизнеспособности использования предварительно обученных многоязычных моделей в контексте языков с ограниченными ресурсами. Точно настроенная модель wav2vec2.0-XLSR показала исключительные результаты, продемонстрировав коэффициент ошибок символов (CER) 1,9 и коэффициент ошибок слов (WER) 8,9 при сравнении с тестовым набором набора данных kazcorpus. Результаты этого анализа могут способствовать созданию надежных и эффективных систем автоматического распознавания речи (ASR), адаптированных для казахского языка. Эти разработки принесут пользу целому ряду приложений, в том числе преобразованию речи в текст, голосовым помощникам и средствам голосового общения.