Large language models and speech genre systematicity

Cover Page

Cite item

Full Text

Abstract

The paper examines a large language model (LLM) to recognize speech genres. Although artificial neural networks are effectively utilized in many important fields, they, however, have a serious drawback. The mechanism of their functioning is hidden from researchers; therefore, the results of their use do not get explanation. The purpose of the study is to reveal the basic mechanisms of functioning of the linguistic model LLM (Transformer) and thereby ensure the interpretability of the data it provides. The research is based on two genres of academic text: “Description of a new scientific phenomenon” and “Explication of a scientific concept.” We verified a hypothesis according to which the LLM feature set is based on the speech systematicity of the recognized genres. It is also shown that since genre-speech systematicity is determined by extralinguistic factors, primarily the characteristics of human consciousness, its manifestations, reflected in the hidden state of the LLM, can be used to model cognitive processes embodied in speech. We also analyze existing approaches to the interpretation of LLMs and describe the applied method to do it. The paper provides the following linguistic interpretation of LLM training and fine-tuning: preliminary training on large text corpora allows a model to display language resources (a system of linguistic units and general principles of their use) relatively completely, while fine-tuning on samples of a certain genre-speech organization restructures the linguistic systematicity into speech systematicity. During the experiments we decoded the hidden state of the LLM and accurately reproduced the composition and frequency of lexis from the training dataset. The classification score for each of the considered genres by the LLM is F1 0.99, we believe this is because of their speech consistency. 

About the authors

Dmitry Alekseevich Devyatkin

Artificial Intelligence Research Institute in Federal Research Center “Computer Science and Control” RAS

ORCID iD: 0000-0002-0811-725X
44/2 Vavilov St., Moscow 119333, Russia

Vladimir Alexandrovich Salimovsky

Perm State University

ORCID iD: 0000-0002-4925-2490
15 Bukireva St., Perm 614990, Russia

Natalya Vladimirovna Chudova

Artificial Intelligence Research Institute in Federal Research Center “Computer Science and Control” RAS

ORCID iD: 0000-0002-3188-0886
44/2 Vavilov St., Moscow 119333, Russia

Anastasia A. Ryzhova

Artificial Intelligence Research Institute in Federal Research Center “Computer Science and Control” RAS

ORCID iD: 0000-0002-3272-9483
44/2 Vavilov St., Moscow 119333, Russia

Oleg G. Grigoriev

Artificial Intelligence Research Institute in Federal Research Center “Computer Science and Control” RAS

ORCID iD: 0000-0001-9660-2396
44/2 Vavilov St., Moscow 119333, Russia

References

  1. Abhilasha R., Belinkov Y., Hovy E. Probing the probing paradigm: Does probing accuracy entail task relevance? // Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics. 2021. Main Vol. P. 3363–3377. https://doi.org/10. 48550/arXiv2005.00719
  2. Amini A., Pimentel T., Meister C., Cotterell R. Naturalistic Causal Probing for Morpho-Syntax // Transactions of the ACL. 2023. Vol. 11. P. 384–403. https://doi.org/10.1162/tacl_a_00554
  3. Devlin J., Chang M.-W., Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. Volume 1 (Long and Short Papers). P. 4171–4186. https://doi.org/10.18653/v1/N19-1423
  4. Hewitt J., Ethayarajh K., Liang P., Manning C. D. Conditional probing: Measuring usable information beyond a baseline // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. November. P. 1626–1639. https://doi.org/10.18653/v1/2021.emnlpmain.122
  5. Hewitt J., Manning C. D. A structural probe for finding syntax in word representations // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. Vol. 1 (Long and Short Papers). P. 4129– 4138.
  6. Krogh A., Hertz J. A. Generalization in a linear perceptron in the presence of noise // Journal of Physics A: Mathematical and General. 1992. Vol. 25, № 5. P. 1135– 1147–1147.
  7. Kuznetsova Y., Chudova N., Salimovsky V., Sharypina D., Devyatkin D. Possibilities of Automatic Detection of Reactions to Frustration in Social Networks // CEUR Workshop Proceedings. IMS 2021. Proceedings of the International Conference “Internet and Modern Society”. Saint Petersburg, 2021. P. 159–168.
  8. Kuznetsov I., Gurevych I. A matter of framing: The impact of linguistic formalism on probing results // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. November. P. 171–182. https://doi.org/10.18653/v1/2020.emnlpmain.13
  9. Pavlick E. Semantic structure in deep learning // Annual Review of Linguistics. 2022. Vol. 8. P. 447–471.
  10. Ravfogel S., Prasad G., Linzen T., Goldberg Y. Counterfactual interventions reveal the causal effect of relative clause representations on agreement prediction // Proceedings of the 25th Conference on Computational Natural Language Learning. 2021. November. https://doi.org/10.18653/v1/2021.conll-1.15
  11. Tenney I., Xia P., Chen B., Wang A., Poliak A., McCoy R. T., Kim N., Durme B. Van, Bowman S., Das D., Pavlick E. What do you learn from context? Probing for sentence structure in contextualized word representations // International Conference on Learning Representations. 2019. https://doi.org/10.48550/arXiv.1905.06316
  12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. Attention is all you need // Advances in neural information processing systems. 2017. Vol. 30. P. 5998–6008.
  13. Yan X., Han J. Graph-based substructure pattern mining // IEEE International Conference on Data Mining, 2002. Proceedings. P. 721–724. https://doi.org/10.1109/ICDM.2002.1184038
  14. Zhu Z., Pan Ch., Abdalla M., Rudzicz F. Examining the rhetorical capacities of neural language models // Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP. 2020. P. 16–32. https://doi.org/10.1865.v1.2020blackboxnlp-1.3
  15. Zmitrovich D., Abramov A., Kalmykov A., Tikhonova M., Taktasheva E., Astafurov D., Baushenko M., Snegirev A., Kadulin V., Markov S., Shavrina T., Mikhailov V., Fenogenova A. A Family of Pretrained Transformer Language Models for Russian // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Torino, Italia, 2024. P. 507–524.
  16. Арутюнова Н. Д. Жанры общения // Человеческий фактор в языке: коммуникация, модальность, дейксис : кол. монография / отв. ред. Т. В. Булыгина. М. : Наука, 1992. С. 52–56.
  17. Балашова Л. В., Дементьев В. В. Русские речевые жанры. М. : Издат. Дом ЯСК, 2022. 832 с.
  18. Бахтин М. М. Проблема речевых жанров // Бахтин М. М. Эстетика словесного творчества. М. : Искусство, 1979. С. 237–280.
  19. Выготский Л. С. Мышление и речь. М. ; Л. : Гос. соц.-эконом. изд-во, 1934. 324 с.
  20. Гаузенблас К. Существует ли «нейтральный стиль»? // Функциональная стилистика: теория стилей и их языковая реализация. Пермь : Перм. ун-т, 1986. С. 19–22.
  21. Головин Б. Н. Основы культуры речи. М. : Высш. шк., 1988. 320 с.
  22. Дементьев В. В. Теория речевых жанров. М. : Знак, 2010. 600 с.
  23. Дускаева Л. Р. Диалогическая природа газетных речевых жанров. СПб. : Изд-во СПбГУ, 2012. 274 с.
  24. Дьяченко С. В., Иомдин Л. Л., Митюшин Л. Г., Лазурский А. В., Подлесская О. Ю., Сизов В. Г., Фролова Т. И., Цинман Л. Л. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) // Труды Института русского языка им. В. В. Виноградова. 2015. Т. 3 (6). С. 272–300.
  25. Ениколопов С. Н., Медведева Т. И., Воронцова О. Ю. Лингвистические характеристики текстов при депрессии и шизофрении // Медицинская психология в России. 2019. T. 11, № 5 (58). URL: http://mprj.ru/archiv_global/2019_5_58/nomer02.php (дата обращения: 20.02.2024).
  26. Кожина М. Н. О речевой системности научного стиля сравнительно с некоторыми другими. Пермь : Перм. ун-т, 1972. 396 с.
  27. Кожина М. Н. Речеведение: теория функциональной стилистики: избранные труды. М. : Флинта ; Наука, 2020. 624 с.
  28. Костомаров В. Г. Наш язык в действии. М. : Гардарики, 2005. 287 с.
  29. Лагутина К. В., Бойчук Е. И., Лагутина Н. С. Автоматическая классификация русскоязычных интернет- текстов по жанрам // Искусственный интеллект и принятие решений. 1923. № 4. С. 103–114. https://doi.org/10.14357/20718594230410
  30. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003–2005. М. : Индрик, 2005. С. 111–135.
  31. Матвеева Т. В. Статьи по русской стилистике. М. : Флинта, 2024. 392 с.
  32. Матвеева Т. В. Функциональные стили в аспекте текстовых категорий. Свердловск : Изд-во Урал. ун-та, 1990. 172 с.
  33. Новиков Д. А. Интервью от 26.07.2022. URL: https://new.ras.ru/mir-nauky/news/vokrug-iskusstvennogo-intellekta-skladyvaetsya-ochen-trevozhnaya-struktura-znaniy-ikompetentsiy-aka/ (дата обращения: 20.02.2024).
  34. Осипов Г. С. Методы искусственного интеллекта. М. : Физматлит, 2011. 296 с.
  35. Салимовский В. А. Жанры речи в функционально-стилистическом освещении (научный академический текст). Пермь : Изд-во Перм. ун-та, 2002. 236 с.
  36. Седов К. Ф. Общая и антропоцентрическая лингвистика. М. : Языки славянской культуры, 2016. 440 с.
  37. Солганик Г. Я. Современная публицистическая картина мира // Публицистика и информация в современном обществе : сборник статей. М. : Изд-во МГУ, 2000. С. 9–23.
  38. Суворов Р. Е., Соченков И. В. Определение связанности научно-технических документов на основе характеристики тематической значимости // Искусственный интеллект и принятие решений. 2013. № 1. С. 33–40.
  39. Хализев В. Е. Теория литературы. М. : Высш. шк., 2002. 437 с.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 Devyatkin D.A., Salimovsky V.A., Chudova N.V., Ryzhova A.A., Grigoriev O.G.

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).