Alacsony paraméterszámú nyelvi modellek hatékony finomhangolása osztályozási feladatra
Efficient fine-tuning evaluation of low-parameter number language models for classification tasks
Keywords:
language models, sequence classification, product classification, /, nyelvi modellek, szöveg osztályozás, termék csoportosításAbstract
Language models have opened up a new era in artificial intelligence, with initial recurrent neural networks capable of generating even longer continuous texts, but the biggest breakthrough was the transformers architectures, which outperformed previous solutions. A major use of language models is in classification tasks, where the models classify a sentence or sequence into groups according to various criteria based on its content. An advantage of language models using a transformer architecture is that it is possible to activate and deactivate the weights of each layer of the network and their respective optimizations. The aim of my research is to determine to what degree the classification ability of the selected model is reduced when the different layers of the model are activated or deactivated (hereafter referred to as frozen). The analyzed dataset is classifying the given text into 6 different groups. The training is evaluated by testing the training accuracy and error, and then the trained models are evaluated by calculating the area under the Receiver Operating Curve (ROC). Using the results, we can evaluate how freezing configurations change the classification capabilities of the model, how well they meet the requirements of the intended usecase. Such classification algorithms can be used in the engineering field, for example, to aid quality control, where composition can be used to infer the quality properties of a product, or to classify materials in a recycling environment, based only on the names of the components.
Kivonat
A nyelvi modellek új korszakot nyitottak a mesterséges intelligenciában, a kezdetleges rekurrens neurálishálók már akár hosszabb egybefüggő szövegeket is képesek voltak generálni, azonban a legnagyobb áttörést a transformer architektúrák jelentették, amelyek felülmúlták az előző megoldásokat. A nyelvi modellek egyik jelentős felhasználási területe az osztályozási feladatok, amelyek során a modellek különböző szempontok szerint egy-egy mondatot vagy szekvenciát sorolnak csoportba azok tartalma alapján. A transformer architektúrát alkalmazó nyelvi modellek egyik előnye, hogy lehetséges a háló egyes rétegeinek súlyait, illetve azok optimalizálását aktiválni és deaktiválni. Kutatásom célja meghatározni, milyen mértékben csökken a kiválasztott modell osztályozási képessége a modell különböző rétegeinek aktiválása vagy deaktiválása (továbbiakban fagyasztása) esetén. A vizsgált adathalmaz hat különböző csoportba osztva osztályozza az adott szöveget. A tanítás kiértékelését a tanítási pontosság és hiba vizsgálatával, majd a betanított modelleket a Receiver Operating Curve (ROC) alatti terület számításával végeztük. Az eredmények felhasználásával következtetéseket tehetünk, hogy milyen fagyasztási konfigurációk hogyan változtatják a modell osztályozási képességeit, azok mennyire felelnek meg a felhasználói elvárásoknak. Az ilyen osztályozó algoritmusok a műszaki területen például minőségellenőrzést segíthetik, ahol összetétel alapján lehet következtetni a termék minőségi tulajdonságaira, vagy az újrahasznosításra szánt termékeket elnevezésük alapján képes anyagcsoportba osztani.
References
Weixin Liang és tsai. „The Widespread Adoption of Large Language Model-Assisted Writing Across Society”. arXiv preprint arXiv:2502.09747 (2025).
Álvaro López Caro. „Machine translation evaluation metrics benchmarking: from traditional MT to LLMs”. (2023).
Farooq Shareef. „Enhancing Conversational AI with LLMs for Customer Support Automation”. 2024 2nd International Conference on Self Sustainable Artificial Intelligence Systems (ICSSAS). IEEE. 2024, 239–244. old.
Jingzhe Shi és tsai. „Chops: Chat with customer profile systems for customer service with llms”. arXiv preprint arXiv:2404.01343 (2024).
Sina Gholamian és tsai. „LLM-Based Robust Product Classification in Commerce and Compliance”.
arXiv preprint arXiv:2408.05874 (2024).
World Customs Organization. World Customs Organization. Accessed on March 2025. 2025. url: https://www.wcoomd.org/.
Ashish Vaswani és tsai. „Attention is all you need”. Advances in neural information processing systems
(2017).
T Wolf. „Huggingface’s transformers: State-of-the-art natural language processing”. arXiv preprint arXiv:1910.03771 (2019).
Niklas Muennighoff és tsai. „MTEB: Massive text embedding benchmark”. arXiv preprint arXiv:2210.07316
(2022).
Shitao Xiao és tsai. C-Pack: Packaged Resources To Advance General Chinese Embedding. 2023. arXiv: 2309.07597 [cs.CL].
Jacob Devlin és tsai. „Bert: Pre-training of deep bidirectional transformers for language understanding”. Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers). 2019, 4171–4186. old.
He He és tsai. Decoupling Strategy and Generation in Negotiation Dialogues. 2018. arXiv: 1808.09637
[cs.CL].
aladar. Craigslist Bargains. Hugging Face Datasets. Utolsó elérés dátuma 2025 március 8. 2023. url: https://huggingface.co/datasets/aladar/craigslist_bargains.
David J. Hand és Robert J. Till. „A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems”. Mach. Learn. 45.2 (2001. okt.), 171–186. old. issn: 0885-6125. url: https://doi.org/10.1023/A:1010920819831.
Hugging Face. ROC AUC Metric on Hugging Face. Accessed: 2024-11-03. url: https://huggingface.co/ spaces/evaluate-metric/roc_auc.