Anomália-észlelési algoritmusok többszempontú összehasonlítása
A multi-criteria comparison of anomaly detection algorithms
Keywords:
artificial intelligence, anomaly detection, benchmarking, taxonomy of anomaly detection algorithms, /, mesterséges intelligencia, anomália-észlelés, benchmarkinganomália-észlelő algoritmusok taxonómiájaAbstract
Anomaly detection is the technique of finding out-of-the-ordinary occurrences inside datasets. For this goal, several anomaly detection techniques were created in many areas (e.g., economics, industrial processes, health, environmental monitoring, etc.) employing general artificial intelligence and signal processing algorithms. The original dataset features and user-selected hyperparameter parameters substantially affect these algorithm's performance. Researchers must try several approaches with varied hyperparameter settings since there is no ideal solution for a domain or dataset. Researchers should evaluate the performance of these algorithms from several perspectives. Most work is done on particular problem contexts or areas, and methods are assessed from one or a few viewpoints using "default" parameters without hyperparameter optimisation. This article discusses the results of a comprehensive anomaly detection benchmarking that evaluated 34 algorithms on numerous relevant datasets from a broad range of fields. Results are presented from various angles. Hyperparameter optimisation is used to determine the optimal parameters for each method and dataset in each test scenario. This paper discusses the pros and cons of several methods and presents a taxonomy of anomaly detection algorithms depending on the problem context and input data.
Kivonat
Az anomália-észlelés az adathalmazokon belüli, a szokásostól eltérő előfordulások megtalálásának technikája. E cél érdekében számos területen (pl. közgazdaságtan, ipari folyamatok, egészségügy, környezetmonitoring stb.) mesterséges intelligencia és jelfeldolgozó algoritmusok alkalmazásával számos anomália-detektáló technikát hoztak létre. A felhasználó által kiválasztott hiperparaméterek jelentősen befolyásolják ezen algoritmusok teljesítményét. A kutatóknak többféle megközelítést kell kipróbálniuk változatos hiperparaméter-beállításokkal, mivel nincs ideális megoldás egy tartományra vagy adatkészletre. Ezen algoritmusok teljesítményét a kutatók több szempontból kell értékeljék. A legtöbb munka bizonyos kérdéseken vagy területeken történik, és a módszereket egy vagy néhány nézőpontból értékelik "alapértelmezett" paraméterek használatával, hiperparaméter-optimalizálás nélkül. Ez a cikk egy átfogó anomália-észlelési benchmarking eredményeit tárgyalja, amely 34 algoritmust értékelt számos releváns adatkészleten, számos területről. Az eredményeket különböző szögekből mutatjuk be. A hiperparaméter-optimalizálást az egyes módszerek és adatkészletek optimális paramétereinek meghatározására használtuk minden tesztforgatókönyvben. Ez a cikk számos módszer előnyeit és hátrányait tárgyalja, és bemutatja az anomália-észlelő algoritmusok taxonómiáját a probléma és a bemeneti adatok függvényében.
References
G. O. Campos, A. Zimek, J. Sander, R. J. Campello, B. Micenková, E. Schubert, I. Assent, and M. E. Houle. On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data mining and knowledge discovery, 30(4):891–927, 2016.
R. Domingues, M. Filippone, P. Michiardi, and J. Zouaoui. A comparative evaluation of outlier detection algorithms: Experiments and analyses. Pattern Recognition, 74:406–421, 2018.
A. Emmott, S. Das, T. Dietterich, A. Fern, and W.-K. Wong. A meta-analysis of the anomaly detection problem. ArXiv, 1503.01158, 2015.
M. Goldstein and S. Uchida. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PloS one, 11(4):e0152173, 2016.
Goldstein M., Uchida S., A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data. PLoS One. 2016 Apr 19;11(4):e0152173. doi: 10.1371/journal.pone.0152173. PMID: 27093601; PMCID: PMC4836738.
Soenen, J., Leuven, K., Wolputte, E.V., Perini, L., Vercruyssen, V., Meert, W., Davis, J., Blockeel, H. (2021). The Effect of Hyperparameter Tuning on the Comparative Evaluation of Unsupervised Anomaly Detection Methods.
Han S., Hu X., Huang H., Jiang M., Zhao Y., ADBench: Anomaly Detection Benchmark (November 3, 2022). Advances in Neural Information Processing Systems (NeurIPS), 2022, Available at SSRN: https://ssrn.com/abstract=4266498 or http://dx.doi.org/10.2139/ssrn.4266498
Czako, Z., Sebestyen, G., Hangan, A. (2021). AutomaticAI - A hybrid approach for automatic artificial intelligence algorithm selection and hyperparameter tuning. Expert Syst. Appl., 182, 115225.
Developers Google, 2022, https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc
Boyd K., Eng K.H., Page C.D., Area under the Precision-Recall Curve: Point Estimates and Confidence Intervals. In: Machine Learning and Knowledge Discovery in Databases, vol 8190. Springer, Berlin, Heidelberg, https://doi.org/10.1007/978-3-642-40994-3_29