CIA szövegek kohéziójának elemzése első- és másodrendű Markov láncokkal

Cohesion analysis of the CIA texts based on first and second order Markov Chains

Szerzők

  • TÓTH Erzsébet
  • GÁL Zoltán

Kulcsszavak:

text cohesion metrics, 1st and 2nd order Markov chains, DBSCAN algorithm, Linkage algorithm, k-means algorithm, /, a szövegkohézió metrikái, első és másodrendű Markov láncok, DBSCAN algoritmus, Linkage algoritmus, k-Means algoritmus

Absztrakt

The aim of this paper is to quantitatively analyze the cohesion of political and military texts from the Central Intelligence Agency (CIA) digital library using Markov chains. The texts were characterized by 17-dimensional feature vectors (FVs), which describe the ratio of parts of speech. The texts were divided into 80 text entities, the similarity between each entity and the entire text was calculated using cosine distance, and from these we generated time series describing the dynamics of the text. The cohesion of the texts is represented by the overall thematic cohesion (OTC) measure. According to our results, the 30 CIA texts examined show high cohesion, which increases with the length of the text, and the application of a second-order Markov model is more sensitive to the temporal structure of the text dynamics.

Kivonat

A dolgozat célja a Central Intelligence Agency (CIA) digitális könyvtárából származó, politikai és katonai témájú szövegek kohéziójának kvantitatív elemzése Markov-láncok alkalmazásával. A szövegeket 17 dimenziós tulajdonság vektorokkal (FV) jellemeztük, amelyek a szófajok arányát írják le. A szövegeket 80 szövegentitásra bontva, az egyes entitások és a teljes szöveg közötti hasonlóságot koszinusz-távolság segítségével számítottuk ki, és ezekből állítottuk elő a szöveg dinamikáját leíró idősorokat. A szövegek kohézióját az átfogó tematikus kohézió (OTC) mérőszám reprezentálja. Eredményeink szerint a vizsgált 30 CIA-szöveg magas kohéziót mutat, amely a szöveghosszal növekszik, és másodrendű Markov-modell alkalmazása érzékenyebben ismeri fel a szövegdinamika időbeli szerkezetét.

Hivatkozások

Tóth, E., Gál, Z. Classification of the Noisy Texts Based on Feature Vectors. In: 15th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2024: Proceedigns / IEEE, IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC, Piscataway, 77-83, 2024. ISBN: 9798350378245

Gál Z., Tóth E. Deep learning-based analysis of ancient Greek literary texts: A statistical model based on word frequency for the classification of texts. In: Proc. of the 12th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2021. Ed.: Jan Nikodem, Ryszard Klempous, Piscataway (NJ): IEEE-INST Inc, 2021, 529-535, ISBN: 9781665424950.

Gal Z., Tóth E. Deep Learning-Based Analysis of Ancient Greek Literary Texts in English Version: A Statistical Model Based on Word Frequency and Noise Probability for the Classification of Texts. Infocommunications Journal, Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality, 2024, 2–11, https://doi.org/10.36244/ICJ.2024.5.1.

Tóth E., Gál Z. Multilabel clustering analysis of the Croatian-English parallel corpus based on Latent Dirichlet Allocation Algorithm. In: Proc. of the 14th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2023, Piscataway (NJ): IEEE-INST Inc, 2023, 25–32, ISBN 97983503256

Tóth E., Gal Z. Optimizing Text Clustering Efficiency through Flexible Latent Dirichlet Allocation Method: Exploring the Impact of Data Features and Threshold Modification. Infocommunications Journal, Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality, 2024, 58–66, https://doi.org/10.36244/ICJ.2024.5.7.

Phelan, J., Rabinovitz, P. J. Narrative as Rethoric, in Herman, David és mások (eds.): Narrative Theory: Core Concepts and Critical Debates, Columbus, The Ohio State University, 2012, 3-7.

M Jeong, H Kim, SJ Cheon, BJ Choi, NS Kim. Diff-tts: A denoising diffusion model for text-to-speech, arXiv preprint arXiv:2104.01409, 2021, arxiv.org

D. Ghosal, N. Majumder et al. Text-to-Audio Generation using Instruction Guided Latent Diffusion Model, MM '23: Proceedings of the 31st ACM International Conference on Multimedia, pp 3590 – 3598, https://doi.org/10.1145/3581783.3612348.

S. Gu, D. Chen et al. Vector Quantized Diffusion Model for Text-to-Image SynthesisProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 10696-10706.

R. Huang, Z. Zhao et al. ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech

MM '22: Proceedings of the 30th ACM International Conference on Multimedia Pages 2595 – 2605, https://doi.org/10.1145/3503161.3547855

Letöltések

Megjelent

2025-10-06