Қазақ тіліне арналған Wav2Vec2 моделін пайдалана отырып, ауызша сөйлеу тілін сәйкестендіру


Қаралымдар: 258 / PDF жүктеулері: 154

Авторлар

DOI:

https://doi.org/10.32523/bulmathenu.2025/1.1

Кілт сөздер:

табиғи тілді өңдеу, тілді сәйкестендіру, ауызша сөйлеу тілін сәйкестендіру, қазақ тілі, Wav2Vec2, XLSR

Аңдатпа

Бұл зерттеу XLSR (Cross-Lingual Speech Recognition) WAV2VEC2 моделін қолдана отырып, ауызша тілді сәйкестендіру моделін әзірлеу және дәл баптауды ұсынады. Алты тілді қамтитын бай және алуан түрлі деректер жиынтығында оқытылған, қазақ тілі сияқты ресурстары төмен тілдерге ерекше назар аудара отырып, модель көп тілді сөйлеуді танудың керемет мүмкіндіктерін көрсетеді. Кең бағалаудың арқасында дәл бапталған модель қолданыстағы эталондардан асып қана қоймайды, сонымен қатар басқа заманауи модельдерден, соның ішінде Whisper нұсқаларынан да асып түседі. F1 92,9% және 93% дәлдікпен жоғары нәтижеге қол жеткізген модель өзінің өнімділігін нақты көп тілді және аз ресурстық сценарийлерде көрсетеді. Бұл жұмыс сөйлеуді тану технологияларының дамуына айтарлықтай үлес қосады, әр түрлі тілдік ортада, әсіресе аз ұсынылған тілдік жағдайларда тілді анықтаудың сенімді шешімін ұсынады. Оның жетістігі wav2vec2 негізіндегі модельдердің ресурстары төмен көп тілді контексттерде сөйлеуді өңдеу жүйелерін жақсартудағы әлеуетін көрсетеді. Осы талдаудың қорытындылары қазақ тілі үшін оңтайландырылған сөйлеуді автоматты түрде танудың сенімді және тиімді жүйелерін әзірлеуге ықпал етуі мүмкін. Мұндай технологиялар әртүрлі салаларда, соның ішінде сөйлеуді мәтінге түрлендіруде, дауыстық көмекшілердің жұмысында және дауыстық байланыс құралдарында қолданылады.

Автор өмірбаяндары

Жанибек Кожырбаев, Назарбаев университет

PhD, Аға ғылыми қызметкер, National Laboratory Astana

Санжар Умбет, Трирский университет, ул. Университетсринг 15, 54296, Трир, Германия

деректер ғылымының магистранты, Триер университеті, Университетсринг, Германия

Әдебиеттер тізімі

Niesler, T. R., Willett, D. Language identification and multilingual speech recognition using discriminatively trained acoustic models // Proceedings of Interspeech. - Pittsburgh, PA, USA, 2006. - P. 134-137.

Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations // Advances in neural information processing systems. - 2020. - V. 33. - P. 12449-12460.

Song J., Ermon S. Multi-label contrastive predictive coding // Advances in Neural Information Processing Systems. - 2020. - V. 33. - P. 8161-8173.

Li S., Li L., Hong Q., Liu L. Improving Transformer-Based Speech Recognition with Unsupervised Pre-Training and Multi-Task Semantic Knowledge Learning // Proceedings of Interspeech. - Shanghai, China, 2020. - P. 5006-5010.

Schneider S., Baevski A., Collobert R., Auli, M. wav2vec: Unsupervised Pre-Training for Speech Recognition // Proceedings of Interspeech. - Graz, Austria, 2019. - P. 3465-3469.

Baevski A., Schneider S., Auli M. vq-wav2vec: Self-supervised learning of discrete speech representations // Proceedings of 8th International Conference on Learning Representations (ICLR). - Addis Ababa, Ethiopia, 2020. - P. 1-12.

Fan, Z., Li, M., Zhou, S., & Xu, B. (2021). Exploring wav2vec 2.0 on Speaker Verification and Language Identification // Proceedings of Interspeech. - Brno, Czechia, 2021. - P. 1509-1513.

Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - Minneapolis, Minnesota, USA, 2019. - P. 4171-4186.

Conneau, A., Baevski, A., Collobert, R., Mohamed, A., Auli, M. Unsupervised cross-lingual representation learning for speech recognition // Proceedings of Interspeech. - Brno, Czechia, 2021. - P. 2426-2430.

Singh, G., Sharma, S., Kumar, V., Kaur, B., Bax, M., Masud, M. Spoken Language Identification Using Deep Learning // Computational Intelligence and Neuroscience. - 2021. - V.1. -P. 5123671.

Aysa, Z., Ablimit, M., Hamdulla, A. Multi-scale feature learning for language identification of overlapped speech // Applied Sciences. - 2023. - V.13(7). - P. 4235.

Kozhirbayev, Z., Yessenbayev, Z., Karabalayeva, M. Kazakh and Russian languages identification using long short-term memory recurrent neural networks // Proceedings of the 11th International Conference on Application of Information and Communication Technologies (AICT). – Moscow, Russia, 2017. -V. 1. -P. 1–5.

Kozhirbayev, Z., Yessenbayev, Z., Sharipbay А. Language identification in the spoken term detection system for the kazakh language in a multilinge environment // Journal of Mathematics, Mechanics and Computer Science. - 2019. -V. 96(4). -P. 88–98.

Kozhirbayev, Z., Yessenbayev, Z., Makazhanov, A. Document and word-level language identification for noisy user generated text // Proceedings of the 12th International Conference on Application of Information and Communication Technologies (AICT). - Almaty, Kazakhstan, 2018. - P. 1-4.

Shen, P., Lu, X., Li, S., Kawai, H. Conditional generative adversarial nets classifier for spoken language identification // Proceedings of Interspeech. - Stockholm, Sweden, 2017. – P. 2814-2818.

Valk, J., Alumäe, T. Voxlingua107: a dataset for spoken language recognition // Proceedings of IEEE Spoken Language Technology Workshop (SLT). - Shenzhen, China, 2021. - P. 652-658.

Ardila, R., Branson, M., Davis, K., Henretty, M., Kohler, M., Meyer, J., Morais, R., Saunders, L., Tyers, F. M., Weber, G. Common Voice: A Massively-Multilingual Speech Corpus // Proceedings of the Twelfth Language Resources and Evaluation Conference. -Marseille, France, 2020. - P. 4218-4222.

Mussakhojayeva, S., Khassanov, Y., Varol, H. A. KSC2: An industrial-scale open-source Kazakh speech corpus // Proceedings of Interspeech. - Incheon, Korea, 2022. - P. 1367-1371.

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., Sutskever, I. Robust speech recognition via large-scale weak supervision // Proceedings of the International conference on machine learning. – Hawaii, USA, 2023. - P. 28492-28518.

Жүктеулер

Жарияланды

2025-03-31

Дәйексөзді қалай келтіруге болады

Кожырбаев, Ж., & Умбет, С. (2025). Қазақ тіліне арналған Wav2Vec2 моделін пайдалана отырып, ауызша сөйлеу тілін сәйкестендіру . Л.Н. Гумилев атындағы Еуразия ұлттық университетінің хабаршысы. Математика, компьютерлік ғылымдар, механика сериясы, 150(1), 6–16. https://doi.org/10.32523/bulmathenu.2025/1.1

Журналдың саны

Бөлім

Статьи