Язык российских фейковых статей: исследование на основе корпуса актуальных изменений в вирусной дезинформации

Обложка

Цитировать

Полный текст

Аннотация

Распространение дезинформации во время пандемии COVID-19 во многом связано с социальными сетями и онлайн-мессенджерами. Вирусная дезинформация, распространявшаяся в 2020–2021 годах, была связана с рядом вопросов, вызывавших панику у людей. Появилось множество ложных статей, которые со временем привлекли общественный интерес, что указывает на глубокое доверие общественных масс к такой информации. Интеллектуальный анализ текста можно применять для изучения частоты использования ключевых слов и лексики по определенной теме, чтобы отслеживать внимание общества касательно дезинформации в Интернете. В данной статье мы представляем результаты корпусного исследования широко распространившихся в течение первого года пандемии COVID-19 российских фейков. Мы предлагаем метод анализа центральных тем и динамику их изменений в контексте российских фейков о COVID-19. Для достижения этой цели мы используем набор инструментов: поиск ключевых слов, подсчет их частотности и анализ соответствующих контекстов. Мы применяем эти инструменты для составления специализированного диахронического корпуса российских вирусных ложных новостей о COVID-19. Полученные данные оцениваются для определения динамики изменений тем путем отслеживания частоты использования ключевых слов и других высокочастотных слов корпуса. Выводы работы о колебаниях дезинформирующих тем о вирусе COVID-19 в России, а также толкования изменений общественного интереса к ним в течение первого года пандемии могут способствовать разработке эффективных стратегий противодействия распространению фейковых новостей в будущем.

Об авторах

Alina Monogarova

Пятигорский государственный университет

Email: alinach12@yandex.ru
ORCID iD: 0000-0003-4098-0341

Tatyana Shiryaeva

Пятигорский государственный университет

Email: shiryaeva@list.ru
ORCID iD: 0000-0002-2604-1703

Nadezhda Arupova

МГИМО

Email: arupova.n.r@inno.mgimo.ru
ORCID iD: 0000-0002-7094-0626

Список литературы

  1. Anspach, N., M., Jennings, J., T., & Arceneaux, K. (2019). A little bit of knowledge: Facebook’s news feed and self-perceptions of knowledge. Research and Politics, 6(1), 1–9.https://doi.org/10.1177/2053168018816189
  2. Baron, A., Rayson, P., & Archer, D. (2009). Word frequency and key word statistics in historical corpus linguistics. Anglistik: International Journal of English Studies, 20(1), 41–67.
  3. Biber, D., Conrad, S., & Reppen, R. (1998). Corpus linguistics. Investigating language structure and use. Cambridge University Press.https://doi.org/10.1017/CBO9780511804489
  4. Biber, D., & Jones, J. K. (2009). Quantitative methods in corpus linguistics. In A. Lüdeling & M. Kytö (Eds.), Corpus linguistics: An international handbook (vol. 2, p. 1286-1304). De Gruyter Mouton.https://doi.org/10.1515/9783110213881.2.1286
  5. Brezina, V. (2018). Statistics in Corpus linguistics: A practical guide. Cambridge University Press.https://doi.org/10.1017/9781316410899.008
  6. Brezina, V., McEnery, T., & Wattam, S. (2015). Collocations in context: A new perspective on collocation networks. International Journal of Corpus Linguistic, 20(2), 39–73.https://doi.org/10.1075/ijcl.20.2.01bre
  7. Budge, I, & Pennings, P. (2007) Do they work? Validating computerised word frequency estimates against policy series. Electoral Studies, 26(1), 121–129.https://doi.org/10.1016/j.electstud.2006.04.002
  8. Curzan, A. (2009) Historical corpus linguistics and evidence of language change. In A. Lüdeling & M. Kytö (Eds.), Corpus linguistics: An international handbook (vol. 2, pp. 1091–1109). De Gruyter Mouton.https://doi.org/10.1515/9783110213881.2.1091
  9. Faust, O. (2018) Documenting and predicting topic changes in Computers in Biology and Medicine: A bibliometric keyword analysis from 1990 to 2017. Informatics in Medicine Unlocked, 11, 15-27.https://doi.org/10.1016/j.imu.2018.03.002
  10. Grimmer, J., & Stewart, B. M. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267–297.https://doi.org/10.1093/pan/mps028
  11. Islam, M. S., Sarkar, T., Khan, S. H., Kamal, A. M., Hasan, S. M., Kabir, A., Yeasmin, D., Islam, M. A., Chowdhury, K. I. A., Anwar, K. S., Chughtai, A. A., & Seale, H. (2020). Covid-19–Related infodemic and its impact on public health: A global social media analysis. American Journal of Tropical Medicine and Hygiene, 103(4), 1621–1629.https://doi.org/10.4269/ajtmh.20-0812
  12. Ivanenko, A. A., & Zhuravlyova, K. A. (2020). CHto zaraznee: Ocenka upotrebitel’nosti leksem koronavirusnoj epohi [What’s more contagious: Assessing the prevalence of coronavirus-era lexemes]. In N.V. Kozlovskaya (Ed.), Novye slova i slovari novyh slov [New words and dictionaries of new words] (pp. 63-70). RAS.https://doi.org/10.30842/9785604483862
  13. Jurisica, I., &Wigle D. (2005). Knowledge discovery in proteomics. Chapman and Hall.https://doi.org/10.1201/9781420035162
  14. Karjus, A., Blythe, R., Kirby, S., Smith, K. (2020). Quantifying the dynamics of topical fluctuations in language. Language Dynamics and Change, 10(1), 86–125.https://doi.org/10.1163/22105832-01001200
  15. Kim, J. D., Ohta, T., & Tsujii, J. (2008). Corpus annotation for mining biomedical events from literature. BMC Bioinformatics, 9(1), 1–25.https://doi.org/10.1186/1471-2105-9-10
  16. Kim, S. N., Baldwin, T., & Kan, M. Y. (2010). Evaluating N-gram based evaluation metrics for automatic keyphrase extraction. In Proceedings of the 23rd International Conference on Computational Linguistics (pp. 572–580). Coling.
  17. Koplenig, A. (2017). The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets - Reconstructing the composition of the German corpus in times of WWII. Digital Scholarship in the Humanities, 32(1), 169–188.https://doi.org/10.1093/llc/fqv037
  18. Leech, G. (2005). Adding linguistic annotation. Developing linguistic corpora: A guide to good practice (pp. 17–29). Oxbow Books.
  19. Leech, G., & Roger, F. (1992). Computer corpora - What do they tell us about culture? ICAME Journal, 16, 29–50.http://dx.doi.org/10.1111/j.1749-818X.2009.00149.x doi: 10.1111/j.1749-818X.2009.00149.x
  20. MacFarlane, D., Tay, L.Q., Hurlstone, M. J., & Eckera, U. K. H. (2021). Refuting spurious Covid-19 treatment claims reduces demand and misinformation sharing. Journal of Applied Research in Memory and Cognition, 10(2), 248–258.https://doi.org/10.1016/j.jarmac.2020.12.005
  21. Mariani, J., Francopoulo, G., Paroubek, P., & Vernier, F. (2019). The NLP4NLP corpus (II): 50 years of research in speech and language processing. Frontiers in Research Metrics and Analytics, 3, 1–30.https://doi.org/10.3389/frma.2018.00036
  22. McCarthy, M., & Carter, R. (2001). Size isn’t everything: Spoken English, corpus and the classroom. TESOL Quarterly, 35(2), 337–340.https://doi.org/10.2307/3587654
  23. Meurers, W. D. (2005). On the use of electronic corpora for theoretical linguistics. Case studies from the syntax of German. Lingua, 115(11), 1619–1639.https://doi.org/10.1016/J.Lingua.2004.07.007
  24. Murakami, A., Thompson, P., Hunston, S., & Vajn, D. (2017). What is this corpus about?’: Using topic modelling to explore a specialised corpus. Corpora, 12(2), 243-277.https://doi.org/10.3366/cor.2017.0118
  25. Nel, D., van Heerden, G., Chan, A., Ghazisaeedi, M., Halvorson,W., & Steyn, P. (2011). Eleven years of scholarly research in the Journal of Services Marketing. Journal of Services Marketing, 25(1), 4–13.https://doi.org/10.1108/08876041111107014
  26. Ngula, R. (2018) Corpus methods in language studies. In Perspectives on Conducting and Reporting Research in the Humanities (pp. 205–223). University of Cape Coast Press.
  27. Pesta, B., Fuerst, J., & Kirkegaard, E.O.W. (2018). Bibliometric keyword analysis across seventeen years (2000–2016) of intelligence articles. Journal of Intelligence, 6(4), 1–46.https://doi.org/10.3390/jintelligence6040046
  28. Sampsel, L. J. (2018). Voyant tools. Music Reference Services Quarterly, 21(3), 153-157.https://doi.org/10.1080/10588167.2018.1496754
  29. Sarica, S., Luo, J., & Wood, K. L. (2020). TechNet: Technology semantic network based on patent data. Expert Systems with Applications, 142, 112995.https://doi.org/10.1016/j.eswa.2019.112995
  30. Scott, M. (2001). Comparing corpora and identifying key words, collocations, and frequency distributions through the WordSmith tools suite of computer programs. Small corpus studies and ELT: Theory and practice (pp. 47–67). John Benjamins.https://doi.org/10.1075/scl.5.07sco
  31. Sinclair, J. (2005) Corpus and text - basic principles. Developing linguistic corpora: A guide to good practice (pp. 1–16). Oxbow Books.
  32. Sinclair, J. (1991). Corpus, concordance, collocation. Oxford University Press.
  33. Stefanowitsch, A. (2006). Negative evidence and the raw frequency fallacy. Corpus Linguistics and Linguistic Theory, 2(1), 61–77.https://doi.org/10.1515/CLLT.2006.003
  34. Stefanowitsch, A., & Gries, S. Th. (2009). Corpora and grammar. Corpus linguistics: An international handbook (vol. 2, pp. 933–952). De Gruyter Mouton.https://doi.org/10.1515/9783110213881.2.933
  35. Stubbs, M. (2001). Texts, corpora, and problems of interpretation: A response to Widdowson. Applied Linguistics, 22(2), 149–172.https://doi.org/10.1093/applin/22.2.149
  36. Webber, R., & Stroud, D. (2013) How changes in word frequencies reveal changes in the focus of the JDDDMP. Journal of Direct, Data Digit Marketing Practice, 14, 310–320.https://doi.org/10.1057/dddmp.2013.19
  37. Weismayer, C., & Pezenka, I. (2017) Identifying emerging research fields: A longitudinal latent semantic keyword analysis. Scientometrics, 113(3), 1757–1785.https://doi.org/10.1007/s11192-017-2555-z
  38. Wilbur, W. J., Rzhetsky, A., Shatkay, H. (2006). New directions in biomedical text annotation: Definitions, guidelines, and corpus construction. BMC Bioinformatics, 7(1), 1–10.https://doi.org/10.1186/1471-2105-7-356
  39. Williams, G. (1998). Collocational networks: Interlocking patterns of lexis in a corpus of plant biology research articles. International Journal of Corpus Linguistics, 3(1), 151–71.https://doi.org/10.1075/ijcl.3.1.07wil

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».