Topic Modeling for Textual Learning Materials on Informatics Using R Language

  • Р.Е. Ерланова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • А.Б. Нугуманова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • Ж.З. Жантасова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • Е.М. Байбурин Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
Keywords: topic modeling, natural language processing, probabilistic language models, latent Dirichletallocation, R

Abstract

This paper presents results of topic modeling for text learning materials. Learning materials are electronic lecture notes used by teachers to prepare for computer science classes. Topic modeling methods allow users to systematize the content of textual documents without additional manual work. Main topics in documents are highlighted, and the distribution of topics in documents is demonstrated. In other words, the proposed methods provide the framework for the so-called topic model that puts a set of topics that characterize the content of documents in a given collection of documents. The latent Dirichlet allocation (LDA) is used for topic modeling. The implementation is done using the R language. The developed interactive web application provides a set of visual tools for topic modeling to a user (teacher). Visualization techniques gradually improve the ergonomics of a teacher’s work with learning materials and save the time spent on studying, analyzing, and selecting relevant study materials.

DOI 10.14258/izvasu(2018)4-12

Downloads

Download data is not yet available.

References

Jockers M.L. Macroanalysis: Digital methods and literary history. — University of Illinois Press, 2013.

Blei D.M. Probabilistic topic models // Communications of the ACM. — 2012. — Т. 55. — №. 4.

Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1. — № 6.

Коляда А.С., Яковенко В.А., Гогунский В.Д., Яковенко В.О., Гогунський В.Д. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных // Pratsi. — 2014. — № 1 (43).

David M. Blei, Andrew Y.Ng, Michael I. Jordan. Latent Dirichlet Allocation // Journal of Machine Learning Research. — Stanford, 2003. — 1/03.

Минаев В.А., Королев И.Д., Кисленко И.А. Методы выявления латентной и негативной информации в текстовых документах // Технологии техносферной безопасности. — 2016. — №. 5.

Celebic G., Rendulic D. Basic Concepts of Information and Communication Technology // Handbook [Electronic resourse]. — URL: http://www.itdesk.info/handbook_basic_ ict_concepts.pdf (дата обращения: 19.05.2018).

Computer Architecture. Online open course [Electronic resourse]. — URL: https://learn.saylor.org/course/view.php?id=71 (дата обращения: 19.05.2018).

Manning C. et al. The Stanford CoreNLP natural language processing toolkit // Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations. — 2014.

Chen F. Topic Modeling of Document Metadata for Visualizing Collaborations over Time / P. Chiu, S. Lim // Proc. of the Int. Conf. on Intelligent User Interfaces (IUI). — 2016.
Published
2018-09-14
How to Cite
Ерланова, Р., Нугуманова, А., Жантасова, Ж., & Байбурин, Е. (2018). Topic Modeling for Textual Learning Materials on Informatics Using R Language. Izvestiya of Altai State University, (4(102), 68-72. https://doi.org/https://doi.org/10.14258/izvasu(2018)4-12
Section
Математика и механика