Szövegek korrumpálódásának vizsgálata a hálózati adatátvitel során

Text corruption analysis during text transmission on the network


  • TÓTH Erzsébet
  • GÁL Zoltán


Central Intelligence Agency (CIA) texts; text classification; part-of-speech-tagging; quantitative linguistics; coefficient of variation; entropy; noisy texts, /, Central Intelligence Agency (CIA) szövegek; szövegek osztályozása; mondatrész kategorizálás, kvantitatív nyelvészet; variációs együttható; entrópia; zajos szövegek.


In our paper we propose a method to enhance service levels in unreliable message transmission applications through text corruption detection. Analysis of 20 CIA texts explored that feature vectors arising from part-of-speech tagging show specific patterns independent of text size. Subtexts displayed reduced cohesion with parent texts as their size decreased. An exponential function was fitted to the mean intensity value of sorted token identifiers, presenting a common linguistic structure in English military and political texts. Noise introduction experiments highlighted that higher noise levels decreased the mean coefficient of variation and increased entropy fluctuations of texts’ feature vectors, with low noise levels having minimal effect on these metrics. These results reflect that monitoring entropy and coefficient of variation metrics of texts’ feature vectors can preserve text cohesion, even under noisy conditions, giving a quantitative framework for understanding text corruption effects and supporting the improvement of reliable communication systems and linguistic models.


Dolgozatunkban egy olyan módszert javaslunk, amely növeli egy nem megbízható üzenetküldő alkalmazás szolgáltatásának minőségét a szövegek korrumpálódásának felderítésével. A Central Intelligence Agency (CIA) szervezet szövegeinek vizsgálata a tokenek mondatrészekbe (Parts of Speech=POS) történő besorolásából származó tulajdonság (“feature”) vektorokat tárja fel, amelyek speciális mintázatokat mutatnak a szövegek méretétől függetlenül. A szövegentitások csökkenő kohéziót mutatnak a szülő szöveggel, ahogyan azok mérete csökken. Exponenciális függvényt tudtunk illeszteni a tulajdonság vektorok rendezett token kategóriáinak átlag intenzitás értékére, ami egy gyakori nyelvi struktúrát jelez az angol nyelvű katonai és politikai témájú szövegekben. A zaj bevezetésére irányuló kísérletek magasabb zajszinteknél egyre inkább csökkenő átlag variációs együtthatót eredményeznek a szövegek tulajdonság (“feature”) vektoraira vonatkozóan és egyre inkább növekvő átlag entrópia ingadozásokat mutatnak a szövegek tulajdonság vektorainál. Ezzel szemben az alacsony zajszinteknek minimális a hatása a tulajdonság vektorok ezen vizsgált metrikáira. Ezek az eredmények azt tükrözik, hogyha nyomon követjük az entrópia és a variációs együttható metrikákat, akkor a szöveg kohéziója megmarad még zajos feltételek mellett is. Mindez pedig lehetővé teszi, hogy egy megfelelő kvantitatív keretrendszert alakítsunk ki a szöveg korrumpálódás hatásainak megértésére ezzel is támogatva a megbízható hálózati kommunikációs rendszerek és a nyelvi modellek fejlesztését.


