Mesterséges Intelligenciát alkalmazó szövegbányászati eszközök készítése a distiller keretrendszer segítségével– Jogi szövegek automatikus feldolgozása

Development of Artificial Intelligence-based Text Mining Tools with the distiller- framework – in case of Legal Documents

Authors

  • OROSZ Tamás
  • CSÁNYI Gergely
  • NAGY Dániel

Keywords:

machine learning, data mining, text mining, knowledge engineering, mesterséges intelligencia, adatbányászat, szövegbányászat, tudásmenedzsment

Abstract

Machine learning projects do not fall under the traditional definition of software development. In addition to knowledge of software development and artificial intelligence methods, devops experience are also required for a successful project. These work management and deployment tasks generate significant overhead during the project. In this paper, we present an application built in an open source framework, through a legal text mining example, that not only enables agile task solving, facilitates teamwork among team members , but also makes the end-user deployment of the completed system solvable with a single command.

Kivonat

A gépi tanulást alkalmazó projektek nem tartoznak a hagyományos szoftverfejlesztés fogalomkörébe. Egy-egy projekt sikeréhez, a szoftverfejlesztési és mesterséges intelligencia módszerek ismeretén kívül rendszer üzembehelyezési és üzemeltetési tapasztalatokra is szükség van. Ezek, az üzembe helyezési, munkaszervezési feladatok jelentős overheadet generálnak a projekt megoldása során. Ebben a cikkben egy olyan, nyílt forráskódú keretrendszerben készült alkalmazást mutatunk be, egy jogi szövegbányászati példán keresztül, amely nem csak lehetővé teszi a feladatok agilis megoldását, elősegíti a csapattagok közti csoportmunkát, hanem az elkészült rendszer végfelhasználói üzembehelyezését is egyetlen paranccsal megoldhatóvá teszi.

References

Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. Alignedreid: Surpassing human-level performance in person re-identification. arXiv preprint arXiv:1711.08184. (2017).

Rajpurkar, P., Hannun, A. Y., Haghpanahi, M., Bourn, C., & Ng, A. Y. Cardiologist-level arrhythmia detection with convolutional neural networks. arXiv preprint arXiv:1707.01836. (2017).

Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118. (2017).

Crawford, M., Khoshgoftaar, T. M., Prusa, J. D., Richter, A. N., & Al Najada, H. Survey of review spam detection using machine learning techniques. Journal of Big Data, 2(1), 1-24. (2015).

ML Ops Challenges, Solutions and Future Trends, https://towardsdatascience.com/ml-ops-challenges-solutions-and-future-trends-d2e59b74dc6b (2021.09.17)

MONTANA Ltd. Distiller framework. (2021) https://bitbucket.org/montanatudasmenedzsmentkft/distiller/src/master/ (2021.09.17.)

Csányi, G. M., Nagy, D., Vági, R., Vadász, J. P., & Orosz, T. Challenges and Open Problems of Legal Document Anonymization. Symmetry, 13(8), 1490. (2021).

Csányi, G., & Orosz, T. Comparison of data augmentation methods for legal document classification. Acta Technica Jaurinensis. (2021).

Wolpert, D. H., & Macready, W. G. No free lunch theorems for optimization. IEEE transactions on evolutionary computation, 1(1), 67-82. (1997).

Lawrence E. Hecht. Add It Up: How Long Does a Machine Learning Deployment Take?, https://thenewstack.io/add-it-up-how-long-does-a-machine-learning-deployment-take/ (2021.09.20.)

Merkel, D. Docker: lightweight linux containers for consistent development and deployment. Linux Journal, 2014(239), 2. (2014).

Ramírez, Sebastián. FastAPI. (2019). https://fastapi.tiangolo.com/ (2021.09.17.)

Samuel Colvin. Pydantic. (2021) https://pydantic-docs.helpmanual.io/ (2021.09.17.)

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., & Duchesnay, E. Scikit-learn: Machine learning in Python. The Journal of machine learning research, 12, 2825-2830. (2011).

Van Rossum, G. The Python Library Reference, release 3.8.2, Python Software Foundation. 2020.

Joblib Development Team. Joblib: running Python functions as pipeline jobs. 2020. https://joblib.readthedocs.io/ (2021.09.17.)

MONTANA Ltd. Sklearn2json. (2021.) https://bitbucket.org/montanatudasmenedzsmentkft/sklearn2json/src/master/ (2021.09.17)

Openscoring Ltd. Sklearn2PMML. https://github.com/jpmml/sklearn2pmml (2021.09.17.)

Bai, Junjie and Lu, Fang and Zhang, Ke and others. ONNX. Open Neural Network Exchange. 2017, https://github.com/onnx/onnx. (2021.09.17.)

Pereira, Rafael B., Alexandre Plastino, Bianca Zadrozny, and Luiz HC Merschmann. "Categorizing feature selection methods for multi-label classification." Artificial Intelligence Review 49, no. 1 (2018): 57-78.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. (2018).

Wu, M., Liu, F., & Cohn, T. Evaluating the utility of hand-crafted features in sequence labelling. arXiv preprint arXiv:1808.09075. (2018).

Suthaharan, Shan. "Support vector machine." In Machine learning models and algorithms for big data classification, pp. 207-235. Springer, Boston, MA, 2016.

Luhn, H. P. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of research and development, 1(4), 309-317. (1957).

Downloads

Published

2021-10-11