Szövegek korrumpálódásának vizsgálata a hálózati adatátvitel során

Text corruption analysis during text transmission on the network

Authors

  • TÓTH Erzsébet
  • GÁL Zoltán

Keywords:

Central Intelligence Agency (CIA) texts; text classification; part-of-speech-tagging; quantitative linguistics; coefficient of variation; entropy; noisy texts, /, Central Intelligence Agency (CIA) szövegek; szövegek osztályozása; mondatrész kategorizálás, kvantitatív nyelvészet; variációs együttható; entrópia; zajos szövegek.

Abstract

In our paper we propose a method to enhance service levels in unreliable message transmission applications through text corruption detection. Analysis of 20 CIA texts explored that feature vectors arising from part-of-speech tagging show specific patterns independent of text size. Subtexts displayed reduced cohesion with parent texts as their size decreased. An exponential function was fitted to the mean intensity value of sorted token identifiers, presenting a common linguistic structure in English military and political texts. Noise introduction experiments highlighted that higher noise levels decreased the mean coefficient of variation and increased entropy fluctuations of texts’ feature vectors, with low noise levels having minimal effect on these metrics. These results reflect that monitoring entropy and coefficient of variation metrics of texts’ feature vectors can preserve text cohesion, even under noisy conditions, giving a quantitative framework for understanding text corruption effects and supporting the improvement of reliable communication systems and linguistic models.

Kivonat

Dolgozatunkban egy olyan módszert javaslunk, amely növeli egy nem megbízható üzenetküldő alkalmazás szolgáltatásának minőségét a szövegek korrumpálódásának felderítésével. A Central Intelligence Agency (CIA) szervezet szövegeinek vizsgálata a tokenek mondatrészekbe (Parts of Speech=POS) történő besorolásából származó tulajdonság (“feature”) vektorokat tárja fel, amelyek speciális mintázatokat mutatnak a szövegek méretétől függetlenül. A szövegentitások csökkenő kohéziót mutatnak a szülő szöveggel, ahogyan azok mérete csökken. Exponenciális függvényt tudtunk illeszteni a tulajdonság vektorok rendezett token kategóriáinak átlag intenzitás értékére, ami egy gyakori nyelvi struktúrát jelez az angol nyelvű katonai és politikai témájú szövegekben. A zaj bevezetésére irányuló kísérletek magasabb zajszinteknél egyre inkább csökkenő átlag variációs együtthatót eredményeznek a szövegek tulajdonság (“feature”) vektoraira vonatkozóan és egyre inkább növekvő átlag entrópia ingadozásokat mutatnak a szövegek tulajdonság vektorainál. Ezzel szemben az alacsony zajszinteknek minimális a hatása a tulajdonság vektorok ezen vizsgált metrikáira. Ezek az eredmények azt tükrözik, hogyha nyomon követjük az entrópia és a variációs együttható metrikákat, akkor a szöveg kohéziója megmarad még zajos feltételek mellett is. Mindez pedig lehetővé teszi, hogy egy megfelelő kvantitatív keretrendszert alakítsunk ki a szöveg korrumpálódás hatásainak megértésére ezzel is támogatva a megbízható hálózati kommunikációs rendszerek és a nyelvi modellek fejlesztését.

References

Gál Z., Tóth E. Deep learning-based analysis of ancient Greek literary texts: A statistical model based on word frequency for the classification of texts. In: Proc. of the 12th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2021. Ed.: Jan Nikodem, Ryszard Klempous, Piscataway (NJ): IEEE-INST Inc, 2021, 529-535, ISBN: 9781665424950

Gal Z., Tóth E. Deep Learning-Based Analysis of Ancient Greek Literary Texts in English Version: A Statistical Model Based on Word Frequency and Noise Probability for the Classification of Texts. Infocommunications Journal, Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality, 2024, 2–11, https://doi.org/10.36244/ICJ.2024.5.1

Tóth E., Gál Z. Multilabel clustering analysis of the Croatian-English parallel corpus based on Latent Dirichlet Allocation Algorithm. In: Proc. of the 14th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2023, Piscataway (NJ): IEEE-INST Inc, 2023, 25–32, ISBN 97983503256

Tóth E., Gal Z. Optimizing Text Clustering Efficiency through Flexible Latent Dirichlet Allocation Method: Exploring the Impact of Data Features and Threshold Modification. Infocommunications Journal, Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality, 2024, 58–66, https://doi.org/10.36244/ICJ.2024.5.7

A. Ekbal and S. Bandyopadhyay, Part of Speech Tagging in Bengali Using Support Vector Machine. In: 2008 International Conference on Information Technology, Bhubaneswar, India, 2008, pp. 106-111, doi: 10.1109/ICIT.2008.12.

Cicero Dos Santos, Bianca Zadrozny, Learning Character-level Representations for Part-of-Speech Tagging, Proceedings of the 31st International Conference on Machine Learning, PMLR 32(2):1818-1826, 2014.

Tsuruoka, Y. et al. (2005). Developing a Robust Part-of-Speech Tagger for Biomedical Text. In: Bozanis, P., Houstis, E.N. (eds) Advances in Informatics. PCI 2005. Lecture Notes in Computer Science, Vol. 3746. Springer, Berlin, Heidelberg. https://doi.org/10.1007/1157303636

Peilu Wang, Yao Qian, Frank K. Soong, Lei He, Hai Zhao, Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network, In: Computer Science, Computation and Language, (2015) arXiv:1510.06168, https://doi.org/10.48550/arXiv.1510.06168.

Nicolov, Nicolas; Mitkov, Ruslan; Angelova, Galia; Bontcheva, Kalina, Recent Advances in Natural Language Processing III, John Benjamins Publishing Company - Amsterdam, 2004 - 416 p. - Current Issues in Linguistic Theory - ISBN: 9789027294685 - Permalink: http://digital.casalini.it/9789027294685 - Casalini id: 5015997.

Chiche, A., Yitagesu, B. Part of speech tagging: a systematic review of deep learning and machine learning approaches. J Big Data 9, 10 (2022). https://doi.org/10.1186/s40537-022-00561-y

Downloads

Published

2024-10-10