Разплитане на нишките на Тракия
извличане на данни от „Естествена история“ на Плиний Стари
Абстракт
Целта на изследването е да се разработи алгоритъм за извличане на информация за Тракия в текстове на класическата римска литература, като се фокусира върху „Естествена история“ на Плиний Стари. Алгоритъмът, който може да се адаптира за всяко произведение на класически латински език, преобразува данните от формата TESS в CSV набор от данни, което дава възможност за търсене по лема и разпознаване на контекста на съответната глава от произведението с помощта на NLP моделите LatinCy от библиотеката SpaCy. Добавената функция за контекстуализация показва съседните на търсената лема думи. Алгоритъмът е оптимизиран за търсене по няколко леми, поддържа функция за токенизация, контекстуализация и търсене на книги/глави от произведението. Наборът от данни, създаден с помощта на алгоритъма, включва 73 записа, свързани етноними, топоними, реки и планини Тракия, което дава възможност за културни, исторически и географски наблюдения. Инструмент за визуализация, разработен с програмната библиотеката Streamlit, осигурява лесен достъп до данните, като чрез интерактивни графики позволява на потребителите да изследват честотата на лемите, споменаванията на глави и контекста. Изследването предоставя метод за намиране на споменавания на Тракия в труда на Плиний, като в бъдеще се планира да се подобри функцията за разпознаване на записите и да се създаде цялостен първичен набор от данни за класическата римска литература.
Библиография:
Doody, A. (2010). Pliny’s Encyclopedia: The Reception of the Natural History. Cambridge: Cambridge University Press.
Hunter, J. D. (2007). Matplotlib: A 2D Graphics Environment. – Computing in Science & Engineering, vol. 9/3, 90-95.
Kamboj, P., Aggarwal, M., Singla, S., Puri, S. (2011). Effect of Aqueous Extract of Tribulus Terrestris on Oxalate-Induced Oxidative Stress in Rats. – Indian Journal of Nephrology, No. 21/3, 154–159.
Pliny the Elder. Naturalis Historia. Karl Friedrich Theodor Mayhoff (ed.). Lipsiae: Teubner, 1906.
Онлайн ресурси:
Burns, P. J. (2019). Tesserae Project, Classical Language Toolkit. https://github.com/cltk/latin_text_tesserae (accessed 07.06.2024).
Burns, P. J., Bernhardt, N., Geelhaar, T., Koch, V. spaCy. la_core_web_lg, version 3.7.2. https://huggingface.co/latincy/la_core_web_lg (accessed 06.06.2024).
Plotly Technologies Inc. (2015). Collaborative data science Publisher. Montréal, QC. https://plotly.com/python/plotly-express/ (accessed 08.06.2024).
Streamlit. The Fastest Way to Build Custom ML Tools. https://streamlit.io/ (accessed 07.06.2024).