Ipari szenzoradatok elemzése statisztikai és regressziós módszerekkel
Analysis of industrial sensor data using statistical and regression methods
Keywords:
IIoT, statistical analysis, regression models, time series data, Apache Spark, /, statisztikai elemzés, regressziós modellek, idősoros adatokAbstract
Industry players must devote significant attention and resources to real-time data processing to timely extract vital information from available datasets. This includes identifying outlier data, filtering fake information, and enabling predictive maintenance through forecasting analysis. This complex analysis process requires the use of various algorithms that support the listed objectives and offer a broad range of solutions. In this study, we describe the application of Apache Spark's integrated system for the statistical analysis of time series data, which significantly accelerates industrial data analysis. Additionally, we present the linear and Random Forest regression models and their achieved results.
Kivonat
Az ipar szereplőinek kiemelt figyelmet és erőforrásokat kell szentelniük az adatok valós idejű feldolgozására, hogy képesek legyenek létfontosságú információkat kinyerni a rendelkezésre álló adathalmazokból. Ez magában foglalja a kiugró értékek azonosítását, a hibás információk szűrését, és az előrejelző analízis segítségével a prediktív karbantartás lehetőségét. E komplex elemzési folyamat során szükségessé válik különböző algoritmusok alkalmazása, melyek a felsorolt célokat támogatják, és széleskörű megoldásokat kínálnak. A dolgozatban ismertetjük az Apache Spark rendszer alkalmazását idősoros adatok statisztikai elemzésére, amely felgyorsítja az ipari adatelemzési eljárásokat és bemutatjuk a lineáris és a Random Forest regressziós modelleket és az adatfeldolgozások eredményeit.
References
Forkuor, Gerald, et al. "High resolution mapping of soil properties using remote sensing variables in south-western Burkina Faso: a comparison of machine learning and multiple linear regression models." PloS one 12.1 (2017): e0170478.
Ali, Iftikhar, et al. "Review of machine learning approaches for biomass and soil moisture retrievals from remote sensing data." Remote Sensing 7.12 (2015): 16398-16421.
Montgomery, Douglas C., Elizabeth A. Peck, and G. Geoffrey Vining. Introduction to linear regression analysis. John Wiley & Sons, 2021.
Coulston, John W., et al. "Approximating prediction uncertainty for random forest regression models." Photogrammetric Engineering & Remote Sensing 82.3 (2016): 189-197.
Ferencz, Katalin, and József Domokos. "Rapid Prototyping of IoT Applications for the Industry." 2020 IEEE International Conference on Automation, Quality and Testing, Robotics (AQTR). IEEE, 2020.
https://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant