References

gosupr

Государственное управление. Электронный вестник

Public Administration. E-journal (Russia)

2070-1381

Факультет государственного управления МГУ имени М.В. Ломоносова

10.24412/2070-1381-2023-97-70-84

gosupr-187

Research Article

СОЦИОЛОГИЯ УПРАВЛЕНИЯ

MANAGEMENT SOCIOLOGY

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Development of а System of Linguistic Markers for Automated Unloading of Thematic Text Data from а Social Network

https://orcid.org/0000-0001-5674-0962

Саркисова

А. Ю.

Sarkisova

A. Yu.

Саркисова Анна Юрьевна, кандидат филологических наук, доцент, научный сотрудник, факультет государственного управления

Москва

Anna Yu. Sarkisova, PhD, Associate Professor, Research Associate, School of Public Administration

Moscow

sarkisova@data.tsu.ru

https://orcid.org/0000-0002-7140-7882

Петров

Е. Ю.

Petrov

E. Yu.

Петров Евгений Юрьевич, техник, суперкомпьютерный центр

Томск

Evgeny Yu. Petrov, Technician, Supercomputer Center

Tomsk

petrov@data.tsu.ru

https://orcid.org/0000-0002-6622-9882

Дунаева

Д. О.

Dunaeva

D. O.

Дунаева Дарья Олеговна, научный сотрудник, факультет государственного управления

Москва

Daria O. Dunaeva, Research Associate, School of Public Administration

Moscow

ddo@data.tsu.ru

МГУ имени М.В. ЛомоносоваLomonosov Moscow State University

Национальный исследовательский Томский государственный университетNational Research Tomsk State University

2023

24052026

0977084

2026

Саркисова А.Ю., Петров Е.Ю., Дунаева Д.О.

Sarkisova A.Y., Petrov E.Y., Dunaeva D.O.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://www.spajournal.ru/jour/article/view/187

Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.

Automated search and selection of texts on a specific topic in the target source to form a representative thematic text collection (text dataset) of large dimensions, being a special case of obtaining and structuring primary data, remains one of the most demanded applied tasks of natural language processing. The article presents the experience of developing a system of linguistic markers that allows automated extraction of texts related to the topic of vaccination against COVID-19 on the material of the VKontakte social network. A combination of linguistic methods with methods for collecting and processing text data allows forming the final dataset. The test list of markers forms is based on background knowledge, work with dictionaries and special linguistic services. The task was to create a list of words united by a common conceptual feature, to predict the joint occurrence of words in texts about vaccination against COVID-19, or to find specific words that mark this topic: occasionalisms, designations of specific realities. The content of the VKontakte thematic communities uploaded using the test list of markers became the source of automated and expert extraction of the main array of markers (354 units). The procedure for automated filtering of an intermediate text sample (12.8 million texts) is in detail. The technique of formation of stop-words is given. For the period from 01.01.2020 to 03.01.2023, 4.5 million relevant messages were retrieved; the validity of the markers was confirmed by an insignificant amount of noise on the scale of big data. The general principles of preparing linguistic markers for automated unloading of large text data are systematized; the strengths and weaknesses of this tool are noted; recommendations for the formation of a list of linguistic markers are suggested.

Лингвистический маркербольшие данныеавтоматизированный сбор данныхвыгрузка данныхтекстовая коллекцияполнотекстовый поисксоциальные сети«ВКонтакте»открытый APIвакцинацияCOVID-19

Linguistic markerbig dataautomated data collectiondata uploadtext collectionfull-text searchsocial networksVKopen APIvaccinationCOVID-19

Исследование выполнено при финансовой поддержке РНФ, проект 23-28-01025 «Исследование нарративов в социальных медиа с применением технологии анализа больших данных (на примере нарративов о вакцинации от COVID-19)».

The study was carried out with the financial support of the RSCF, project 23-28-01025 “Research of narratives in social media using big data analysis technology (using the example of narratives about vaccination against COVID-19)”.

References1

Горностаева Ю.А. Опыт выявления вербальных маркеров психологических и когнитивных процессов в лингвистике: к истории вопроса // Филологические науки. Вопросы теории и практики. 2018. № 8(86). Ч. 1. С. 91–94. DOI: 10.30853/filnauki.2018-8-1.21

Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I.(2019) Detection and Classification of Social Media-Based Extremist Affiliations Using Sentiment Analysis Techniques. Human-centric Computing and Information Sciences. Vol. 9. DOI: 10.1186/s13673-019-0185-6

Карпова А.Ю., Савельев А.О., Вильнин А.Д., Чайковский Д.В. Изучение процесса онлайн-радикализации молодежи в социальных медиа (междисциплинарный подход) // Мониторинг общественного мнения: экономические и социальные перемены. 2020. № 3. С.159–181. DOI: 10.14515/monitoring.2020.3.1585

Cohen K., Johansson F., Kaati L., Clausen Mork J.C. (2014) Detecting Linguistic Markers for Radical Violence in Social Media. Terrorism and Political Violence. Vol. 26. Is. 1. P. 246–256. DOI: 10.1080/09546553.2014.849948

Колмогорова А.В., Талдыкина Ю.А., Калинин А.А. Языковые маркеры манипуляции в поляризованном политическом дискурсе: опыт параметризации // Политическая лингвистика. 2016. № 4(58). С. 194–199.

Deng W., Hsu J.-H., Löfgren K., Cho W.(2021) Who Is Leading China’s Family Planning Policy Discourse in Weibo? A Social Media Text Mining Analysis. Policy & Internet. Vol. 13. Is. 4. P. 485–501. DOI: 10.1002/poi3.264

Колмогорова А.В., Калинин А.А., Маликова А.В. Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке // Вестник Томского государственного университета. 2019. № 448. С. 48–58. DOI: 10.17223/15617793/448/6

Erseghe T., Badia L., Dzanko L., Suitner C. (2022) PLMP: A Method to map the linguistic markers of the social discourse onto its semantic network. 2022 IEEE / ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). November 10–13, 2022, Istanbul, Turkey. 2022. Istanbul: Institute of Electrical and Electronics Engineers. P. 247–251. DOI: 10.1109/ASONAM55673.2022.10068643

Концевой M.P. Онлайновые семантические вычисления на платформе RusVectōrēs в преподавании компьютерной лингвистики // Дистанционное обучение — образовательная среда XXI века: материалы XII Международной научно-методической конференции, Минск, 26 мая 2022 г. Минск: БГУИР, 2022. C. 75.

Huang F., Ding H., Liu Z., Wu P., Zhu M., Li A., Zhu T. (2020) How Fear and Collectivism Influence Public’s Preventive Intention towards COVID-19 Infection: A Study Based on Big Data from the Social Media. BMC Public Health. Vol. 20. DOI: 10.1186/s12889-020-09674-6

Мишланов В.А., Каджая Л.А., Кузнецова Ю.М. Лингвистические маркеры эмоционального состояния субъекта речи (к проблеме автоматического мониторинга текстов сетевой коммуникации) // Медиалингвистика. 2020. Т. 7. № 4. С. 428–444. DOI: 10.21638/spbu22.2020.405

Huh J-H. (2018) Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach. Symmetry. Vol. 10. Is. 4. DOI: 10.3390/sym10040093

Петров Е.Ю., Саркисова А.Ю. Ресурс аналитической платформы PolyAnalyst в социогуманитарных научных исследованиях // Открытые данные — 2021: материалы форума / под ред. А.Ю. Саркисовой. Томск: Издательство Томского государственного университета, 2021. С. 94–104.

Gornostaeva Yu.A. (2018) Attempt of Identifying Verbal Markers of Psychological and Cognitive Processes in Linguistics: On the Issue History. Filologicheskie nauki. Voprosy teorii i praktiki. No. 8(86). Part 1. P. 91–94. DOI: 10.30853/filnauki.2018-8-1.21

Сбоев А.Г., Гудовских Д.В., Молошников И.А., Кукин К.А., Рыбка Р.Б., Иванов И.И., Власов Д.С. Автоматическое выделение психолингвистических характеристик текстов в рамках концепции Big Data // Современные информационные технологии и IT-образование. 2013. № 9. С. 433–438.

Karpova A.Yu., Savelev A.O., Vilnin A.D., Chaykovskiy D.V. (2020) Studying Online Radicalization of Youth through Social Media (Interdisciplinary Approach). Monitoring obshchestvennogo mneniya: ekonomicheskiye i sotsial’nyye peremeny. No. 3. P. 159–181. DOI: 10.14515/monitoring.2020.3.1585

Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I. Detection and Classification of Social Media-Based Extremist Affiliations Using Sentiment Analysis Techniques // Human-centric Computing and Information Sciences. 2019. Vol. 9. DOI: 10.1186/s13673-019-0185-6

Kessel R. van, Kyriopoulos I., Wong B.L.H., Mossialos E. (2023) The Effect of the COVID-19 Pandemic on Digital Health–Seeking Behavior: Big Data Interrupted Time-Series Analysis of Google Trends. Journal of Medical Internet Research. Vol. 25. DOI: 10.2196/42401

Cohen K., Johansson F., Kaati L., Clausen Mork J.C. Detecting Linguistic Markers for Radical Violence in Social Media // Terrorism and Political Violence. 2014. Vol. 26. Is. 1. P. 246–256. DOI: 10.1080/09546553.2014.849948

Kolmogorova A.V., Taldykina Yu.A., Kalinin A.A. (2016) Linguistic Markers of Manipulation in Polarized Discourse: Parametric Study. Politicheskaya lingvistika. No. 4(58). P. 194–199.

Deng W., Hsu J.-H., Löfgren K., Cho W. Who Is Leading China’s Family Planning Policy Discourse in Weibo? A Social Media Text Mining Analysis // Policy & Internet. 2021. Vol. 13. Is. 4. P. 485–501. DOI: 10.1002/poi3.264

Kolmogorova A.V., Kalinin A.A., Malikova A.V. (2019) The Types and Combinatorics of Verbal Markers of Different Emotional Tonalities in Russian-Language Internet Texts. Vestnik Tomskogo gosudarstvennogo universiteta. No. 448. P. 48–58. DOI: 10.17223/15617793/448/6

Erseghe T., Badia L., Dzanko L., Suitner C. PLMP: A Method to Map the Linguistic Markers of the Social Discourse onto Its Semantic Network // 2022 IEEE / ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). November 10–13, 2022, Istanbul, Turkey. Istanbul: Institute of Electrical and Electronics Engineers, 2022. P. 247–251. DOI: 10.1109/ASONAM55673.2022.10068643

Kontsevoy M.P. (2022) Onlaynovyye semanticheskiye vychisleniya na platforme RusVectōrēs v prepodavanii komp’yuternoy lingvistiki [Online semantic calculations on the RusVectōrēs platform in teaching computational linguistics]. Distantsionnoye obucheniye — obrazovatel’naya sreda XXI veka: materialy XII Mezhdunarodnoy nauchno-metodicheskoy konferentsii. Minsk, May 26, 2022. Minsk: BGUIR. P. 75.

Huang F., Ding H., Liu Z., Wu P., Zhu M., Li A., Zhu T. How Fear and Collectivism Influence Public’s Preventive Intention towards COVID-19 Infection: A Study Based on Big Data from the Social Media // BMC Public Health. 2020. Vol. 20. DOI: 10.1186/s12889-020-09674-6

Liu T., Giorgi S., Yadeta K., Schwarts H.A., Ungar L.H., Curtis B. (2022) Linguistic Predictors from Facebook Postings of Substance Use Disorder Treatment Retention versus Discontinuation. The American Journal of Drug and Alcohol Abuse Encompassing. Vol. 48. Is. 5. P. 573–585. DOI: 10.1080/00952990.2022.2091450

Huh J-H. Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach // Symmetry. 2018. Vol. 10. Is. 4. DOI: 10.3390/sym10040093

Mishlanov V.A., Kadzhaya L.A., Kuznetsova Yu.M. (2020) Linguistic Markers of Emotional State of the Speech Subject (on the Problem of Automatic Monitoring of Network Communication Texts). Medialingvistika. Vol. 7. No. 4. P. 428–444. DOI: 10.21638/spbu22.2020.405

Kessel R. van, Kyriopoulos I., Wong B.L.H., Mossialos E. The Effect of the COVID-19 Pandemic on Digital Health–Seeking Behavior: Big Data Interrupted Time-Series Analysis of Google Trends // Journal of Medical Internet Research. 2023. Vol. 25. DOI: 10.2196/42401

Petrov E.Yu., Sarkisova A.Yu. (2021) Resource of Software Platform “Polyanalyst” in Social Science and Humanities Research. Otkrytyye dannyye — 2021: materialy foruma. Ed. by A.Yu. Sarkisova. Tomsk: Izdatel’stvo Tomskogo gosudarstvennogo universiteta. P. 94–104.

Liu T., Giorgi S., Yadeta K., Schwarts H.A., Ungar L.H., Curtis B. Linguistic Predictors from Facebook Postings of Substance Use Disorder Treatment Retention versus Discontinuation // The American Journal of Drug and Alcohol Abuse Encompassing. 2022. Vol. 48. Is. 5. P. 573–585. DOI: 10.1080/00952990.2022.2091450

Sboev A.G., Gudovskikh D.V., Moloshnikov I.A., Kukin K.A., Rybka R.B., Ivanov I.I., Vlasov D.S. (2013) Avtomaticheskoye vydeleniye psikholingvisticheskikh kharakteristik tekstov v ramkakh kontseptsii Big Data [Automatic selection of psycholinguistic characteristics of texts within the concept of Big Data]. Sovremennye informacionnye tehnologii i IT-obrazovanie. No. 9. P. 433–438.

Shchekotin E.V., Goiko V.L., Myagkov M.G., Dunaeva D.O. Assessment of Quality of Life in Regions of Russia Based on Social Media Data // Journal of Eurasian Studies. 2021. Vol. 12. № 2. DOI: 10.1177/18793665211034185

Shchekotin E.V., Goiko V.L., Myagkov M.G., Dunaeva D.O. (2021) Assessment of Quality of Life in Regions of Russia Based on Social Media Data. Journal of Eurasian Studies. Vol. 12. No. 2. DOI: 10.1177/18793665211034185

The authors declare that there are no conflicts of interest present.