<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">gosupr</journal-id><journal-title-group><journal-title xml:lang="ru">Государственное управление. Электронный вестник</journal-title><trans-title-group xml:lang="en"><trans-title>Public Administration. E-journal (Russia)</trans-title></trans-title-group></journal-title-group><issn pub-type="epub">2070-1381</issn><publisher><publisher-name>Факультет государственного управления МГУ имени М.В. Ломоносова</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.24412/2070-1381-2023-97-70-84</article-id><article-id custom-type="elpub" pub-id-type="custom">gosupr-187</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>СОЦИОЛОГИЯ УПРАВЛЕНИЯ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>MANAGEMENT SOCIOLOGY</subject></subj-group></article-categories><title-group><article-title>Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети</article-title><trans-title-group xml:lang="en"><trans-title>Development of а System of Linguistic Markers for Automated Unloading of Thematic Text Data from а Social Network</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-5674-0962</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Саркисова</surname><given-names>А. Ю.</given-names></name><name name-style="western" xml:lang="en"><surname>Sarkisova</surname><given-names>A. Yu.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Саркисова Анна Юрьевна, кандидат филологических наук, доцент, научный сотрудник, факультет государственного управления</p><p>Москва</p></bio><bio xml:lang="en"><p>Anna Yu. Sarkisova, PhD, Associate Professor, Research Associate, School of Public Administration</p><p>Moscow</p></bio><email xlink:type="simple">sarkisova@data.tsu.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-7140-7882</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Петров</surname><given-names>Е. Ю.</given-names></name><name name-style="western" xml:lang="en"><surname>Petrov</surname><given-names>E. Yu.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Петров Евгений Юрьевич, техник, суперкомпьютерный центр</p><p>Томск</p></bio><bio xml:lang="en"><p>Evgeny Yu. Petrov, Technician, Supercomputer Center</p><p>Tomsk</p></bio><email xlink:type="simple">petrov@data.tsu.ru</email><xref ref-type="aff" rid="aff-2"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-6622-9882</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Дунаева</surname><given-names>Д. О.</given-names></name><name name-style="western" xml:lang="en"><surname>Dunaeva</surname><given-names>D. O.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Дунаева Дарья Олеговна, научный сотрудник, факультет государственного управления</p><p>Москва</p></bio><bio xml:lang="en"><p>Daria O. Dunaeva, Research Associate, School of Public Administration</p><p>Moscow</p></bio><email xlink:type="simple">ddo@data.tsu.ru</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>МГУ имени М.В. Ломоносова</institution></aff><aff xml:lang="en"><institution>Lomonosov Moscow State University</institution></aff></aff-alternatives><aff-alternatives id="aff-2"><aff xml:lang="ru"><institution>Национальный исследовательский Томский государственный университет</institution></aff><aff xml:lang="en"><institution>National Research Tomsk State University</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2023</year></pub-date><pub-date pub-type="epub"><day>24</day><month>05</month><year>2026</year></pub-date><volume>0</volume><issue>97</issue><fpage>70</fpage><lpage>84</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Саркисова А.Ю., Петров Е.Ю., Дунаева Д.О., 2026</copyright-statement><copyright-year>2026</copyright-year><copyright-holder xml:lang="ru">Саркисова А.Ю., Петров Е.Ю., Дунаева Д.О.</copyright-holder><copyright-holder xml:lang="en">Sarkisova A.Y., Petrov E.Y., Dunaeva D.O.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://www.spajournal.ru/jour/article/view/187">https://www.spajournal.ru/jour/article/view/187</self-uri><abstract><p>Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.</p></abstract><trans-abstract xml:lang="en"><p>Automated search and selection of texts on a specific topic in the target source to form a representative thematic text collection (text dataset) of large dimensions, being a special case of obtaining and structuring primary data, remains one of the most demanded applied tasks of natural language processing. The article presents the experience of developing a system of linguistic markers that allows automated extraction of texts related to the topic of vaccination against COVID-19 on the material of the VKontakte social network. A combination of linguistic methods with methods for collecting and processing text data allows forming the final dataset. The test list of markers forms is based on background knowledge, work with dictionaries and special linguistic services. The task was to create a list of words united by a common conceptual feature, to predict the joint occurrence of words in texts about vaccination against COVID-19, or to find specific words that mark this topic: occasionalisms, designations of specific realities. The content of the VKontakte thematic communities uploaded using the test list of markers became the source of automated and expert extraction of the main array of markers (354 units). The procedure for automated filtering of an intermediate text sample (12.8 million texts) is in detail. The technique of formation of stop-words is given. For the period from 01.01.2020 to 03.01.2023, 4.5 million relevant messages were retrieved; the validity of the markers was confirmed by an insignificant amount of noise on the scale of big data. The general principles of preparing linguistic markers for automated unloading of large text data are systematized; the strengths and weaknesses of this tool are noted; recommendations for the formation of a list of linguistic markers are suggested.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>Лингвистический маркер</kwd><kwd>большие данные</kwd><kwd>автоматизированный сбор данных</kwd><kwd>выгрузка данных</kwd><kwd>текстовая коллекция</kwd><kwd>полнотекстовый поиск</kwd><kwd>социальные сети</kwd><kwd>«ВКонтакте»</kwd><kwd>открытый API</kwd><kwd>вакцинация</kwd><kwd>COVID-19</kwd></kwd-group><kwd-group xml:lang="en"><kwd>Linguistic marker</kwd><kwd>big data</kwd><kwd>automated data collection</kwd><kwd>data upload</kwd><kwd>text collection</kwd><kwd>full-text search</kwd><kwd>social networks</kwd><kwd>VK</kwd><kwd>open API</kwd><kwd>vaccination</kwd><kwd>COVID-19</kwd></kwd-group><funding-group><funding-statement xml:lang="ru">Исследование выполнено при финансовой поддержке РНФ, проект 23-28-01025 «Исследование нарративов в социальных медиа с применением технологии анализа больших данных (на примере нарративов о вакцинации от COVID-19)».</funding-statement><funding-statement xml:lang="en">The study was carried out with the financial support of the RSCF, project 23-28-01025 “Research of narratives in social media using big data analysis technology (using the example of narratives about vaccination against COVID-19)”.</funding-statement></funding-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Горностаева Ю.А. Опыт выявления вербальных маркеров психологических и когнитивных процессов в лингвистике: к истории вопроса // Филологические науки. Вопросы теории и практики. 2018. № 8(86). Ч. 1. С. 91–94. DOI: 10.30853/filnauki.2018-8-1.21</mixed-citation><mixed-citation xml:lang="en">Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I.(2019) Detection and Classification of Social Media-Based Extremist Affiliations Using Sentiment Analysis Techniques. Human-centric Computing and Information Sciences. Vol. 9. DOI: 10.1186/s13673-019-0185-6</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Карпова А.Ю., Савельев А.О., Вильнин А.Д., Чайковский Д.В. Изучение процесса онлайн-радикализации молодежи в социальных медиа (междисциплинарный подход) // Мониторинг общественного мнения: экономические и социальные перемены. 2020. № 3. С.159–181. DOI: 10.14515/monitoring.2020.3.1585</mixed-citation><mixed-citation xml:lang="en">Cohen K., Johansson F., Kaati L., Clausen Mork J.C. (2014) Detecting Linguistic Markers for Radical Violence in Social Media. Terrorism and Political Violence. Vol. 26. Is. 1. P. 246–256. DOI: 10.1080/09546553.2014.849948</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Колмогорова А.В., Талдыкина Ю.А., Калинин А.А. Языковые маркеры манипуляции в поляризованном политическом дискурсе: опыт параметризации // Политическая лингвистика. 2016. № 4(58). С. 194–199.</mixed-citation><mixed-citation xml:lang="en">Deng W., Hsu J.-H., Löfgren K., Cho W.(2021) Who Is Leading China’s Family Planning Policy Discourse in Weibo? A Social Media Text Mining Analysis. Policy &amp; Internet. Vol. 13. Is. 4. P. 485–501. DOI: 10.1002/poi3.264</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Колмогорова А.В., Калинин А.А., Маликова А.В. Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке // Вестник Томского государственного университета. 2019. № 448. С. 48–58. DOI: 10.17223/15617793/448/6</mixed-citation><mixed-citation xml:lang="en">Erseghe T., Badia L., Dzanko L., Suitner C. (2022) PLMP: A Method to map the linguistic markers of the social discourse onto its semantic network. 2022 IEEE / ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). November 10–13, 2022, Istanbul, Turkey. 2022. Istanbul: Institute of Electrical and Electronics Engineers. P. 247–251. DOI: 10.1109/ASONAM55673.2022.10068643</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Концевой M.P. Онлайновые семантические вычисления на платформе RusVectōrēs в преподавании компьютерной лингвистики // Дистанционное обучение — образовательная среда XXI века: материалы XII Международной научно-методической конференции, Минск, 26 мая 2022 г. Минск: БГУИР, 2022. C. 75.</mixed-citation><mixed-citation xml:lang="en">Huang F., Ding H., Liu Z., Wu P., Zhu M., Li A., Zhu T. (2020) How Fear and Collectivism Influence Public’s Preventive Intention towards COVID-19 Infection: A Study Based on Big Data from the Social Media. BMC Public Health. Vol. 20. DOI: 10.1186/s12889-020-09674-6</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Мишланов В.А., Каджая Л.А., Кузнецова Ю.М. Лингвистические маркеры эмоционального состояния субъекта речи (к проблеме автоматического мониторинга текстов сетевой коммуникации) // Медиалингвистика. 2020. Т. 7. № 4. С. 428–444. DOI: 10.21638/spbu22.2020.405</mixed-citation><mixed-citation xml:lang="en">Huh J-H. (2018) Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach. Symmetry. Vol. 10. Is. 4. DOI: 10.3390/sym10040093</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Петров Е.Ю., Саркисова А.Ю. Ресурс аналитической платформы PolyAnalyst в социогуманитарных научных исследованиях // Открытые данные — 2021: материалы форума / под ред. А.Ю. Саркисовой. Томск: Издательство Томского государственного университета, 2021. С. 94–104.</mixed-citation><mixed-citation xml:lang="en">Gornostaeva Yu.A. (2018) Attempt of Identifying Verbal Markers of Psychological and Cognitive Processes in Linguistics: On the Issue History. Filologicheskie nauki. Voprosy teorii i praktiki. No. 8(86). Part 1. P. 91–94. DOI: 10.30853/filnauki.2018-8-1.21</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Сбоев А.Г., Гудовских Д.В., Молошников И.А., Кукин К.А., Рыбка Р.Б., Иванов И.И., Власов Д.С. Автоматическое выделение психолингвистических характеристик текстов в рамках концепции Big Data // Современные информационные технологии и IT-образование. 2013. № 9. С. 433–438.</mixed-citation><mixed-citation xml:lang="en">Karpova A.Yu., Savelev A.O., Vilnin A.D., Chaykovskiy D.V. (2020) Studying Online Radicalization of Youth through Social Media (Interdisciplinary Approach). Monitoring obshchestvennogo mneniya: ekonomicheskiye i sotsial’nyye peremeny. No. 3. P. 159–181. DOI: 10.14515/monitoring.2020.3.1585</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I. Detection and Classification of Social Media-Based Extremist Affiliations Using Sentiment Analysis Techniques // Human-centric Computing and Information Sciences. 2019. Vol. 9. DOI: 10.1186/s13673-019-0185-6</mixed-citation><mixed-citation xml:lang="en">Kessel R. van, Kyriopoulos I., Wong B.L.H., Mossialos E. (2023) The Effect of the COVID-19 Pandemic on Digital Health–Seeking Behavior: Big Data Interrupted Time-Series Analysis of Google Trends. Journal of Medical Internet Research. Vol. 25. DOI: 10.2196/42401</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Cohen K., Johansson F., Kaati L., Clausen Mork J.C. Detecting Linguistic Markers for Radical Violence in Social Media // Terrorism and Political Violence. 2014. Vol. 26. Is. 1. P. 246–256. DOI: 10.1080/09546553.2014.849948</mixed-citation><mixed-citation xml:lang="en">Kolmogorova A.V., Taldykina Yu.A., Kalinin A.A. (2016) Linguistic Markers of Manipulation in Polarized Discourse: Parametric Study. Politicheskaya lingvistika. No. 4(58). P. 194–199.</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Deng W., Hsu J.-H., Löfgren K., Cho W. Who Is Leading China’s Family Planning Policy Discourse in Weibo? A Social Media Text Mining Analysis // Policy &amp; Internet. 2021. Vol. 13. Is. 4. P. 485–501. DOI: 10.1002/poi3.264</mixed-citation><mixed-citation xml:lang="en">Kolmogorova A.V., Kalinin A.A., Malikova A.V. (2019) The Types and Combinatorics of Verbal Markers of Different Emotional Tonalities in Russian-Language Internet Texts. Vestnik Tomskogo gosudarstvennogo universiteta. No. 448. P. 48–58. DOI: 10.17223/15617793/448/6</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Erseghe T., Badia L., Dzanko L., Suitner C. PLMP: A Method to Map the Linguistic Markers of the Social Discourse onto Its Semantic Network // 2022 IEEE / ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). November 10–13, 2022, Istanbul, Turkey. Istanbul: Institute of Electrical and Electronics Engineers, 2022. P. 247–251. DOI: 10.1109/ASONAM55673.2022.10068643</mixed-citation><mixed-citation xml:lang="en">Kontsevoy M.P. (2022) Onlaynovyye semanticheskiye vychisleniya na platforme RusVectōrēs v prepodavanii komp’yuternoy lingvistiki [Online semantic calculations on the RusVectōrēs platform in teaching computational linguistics]. Distantsionnoye obucheniye — obrazovatel’naya sreda XXI veka: materialy XII Mezhdunarodnoy nauchno-metodicheskoy konferentsii. Minsk, May 26, 2022. Minsk: BGUIR. P. 75.</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Huang F., Ding H., Liu Z., Wu P., Zhu M., Li A., Zhu T. How Fear and Collectivism Influence Public’s Preventive Intention towards COVID-19 Infection: A Study Based on Big Data from the Social Media // BMC Public Health. 2020. Vol. 20. DOI: 10.1186/s12889-020-09674-6</mixed-citation><mixed-citation xml:lang="en">Liu T., Giorgi S., Yadeta K., Schwarts H.A., Ungar L.H., Curtis B. (2022) Linguistic Predictors from Facebook Postings of Substance Use Disorder Treatment Retention versus Discontinuation. The American Journal of Drug and Alcohol Abuse Encompassing. Vol. 48. Is. 5. P. 573–585. DOI: 10.1080/00952990.2022.2091450</mixed-citation></citation-alternatives></ref><ref id="cit14"><label>14</label><citation-alternatives><mixed-citation xml:lang="ru">Huh J-H. Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach // Symmetry. 2018. Vol. 10. Is. 4. DOI: 10.3390/sym10040093</mixed-citation><mixed-citation xml:lang="en">Mishlanov V.A., Kadzhaya L.A., Kuznetsova Yu.M. (2020) Linguistic Markers of Emotional State of the Speech Subject (on the Problem of Automatic Monitoring of Network Communication Texts). Medialingvistika. Vol. 7. No. 4. P. 428–444. DOI: 10.21638/spbu22.2020.405</mixed-citation></citation-alternatives></ref><ref id="cit15"><label>15</label><citation-alternatives><mixed-citation xml:lang="ru">Kessel R. van, Kyriopoulos I., Wong B.L.H., Mossialos E. The Effect of the COVID-19 Pandemic on Digital Health–Seeking Behavior: Big Data Interrupted Time-Series Analysis of Google Trends // Journal of Medical Internet Research. 2023. Vol. 25. DOI: 10.2196/42401</mixed-citation><mixed-citation xml:lang="en">Petrov E.Yu., Sarkisova A.Yu. (2021) Resource of Software Platform “Polyanalyst” in Social Science and Humanities Research. Otkrytyye dannyye — 2021: materialy foruma. Ed. by A.Yu. Sarkisova. Tomsk: Izdatel’stvo Tomskogo gosudarstvennogo universiteta. P. 94–104.</mixed-citation></citation-alternatives></ref><ref id="cit16"><label>16</label><citation-alternatives><mixed-citation xml:lang="ru">Liu T., Giorgi S., Yadeta K., Schwarts H.A., Ungar L.H., Curtis B. Linguistic Predictors from Facebook Postings of Substance Use Disorder Treatment Retention versus Discontinuation // The American Journal of Drug and Alcohol Abuse Encompassing. 2022. Vol. 48. Is. 5. P. 573–585. DOI: 10.1080/00952990.2022.2091450</mixed-citation><mixed-citation xml:lang="en">Sboev A.G., Gudovskikh D.V., Moloshnikov I.A., Kukin K.A., Rybka R.B., Ivanov I.I., Vlasov D.S. (2013) Avtomaticheskoye vydeleniye psikholingvisticheskikh kharakteristik tekstov v ramkakh kontseptsii Big Data [Automatic selection of psycholinguistic characteristics of texts within the concept of Big Data]. Sovremennye informacionnye tehnologii i IT-obrazovanie. No. 9. P. 433–438.</mixed-citation></citation-alternatives></ref><ref id="cit17"><label>17</label><citation-alternatives><mixed-citation xml:lang="ru">Shchekotin E.V., Goiko V.L., Myagkov M.G., Dunaeva D.O. Assessment of Quality of Life in Regions of Russia Based on Social Media Data // Journal of Eurasian Studies. 2021. Vol. 12. № 2. DOI: 10.1177/18793665211034185</mixed-citation><mixed-citation xml:lang="en">Shchekotin E.V., Goiko V.L., Myagkov M.G., Dunaeva D.O. (2021) Assessment of Quality of Life in Regions of Russia Based on Social Media Data. Journal of Eurasian Studies. Vol. 12. No. 2. DOI: 10.1177/18793665211034185</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
