Тематическое моделирование текстовых учебных материалов по информатике средствами языка R

  • Р.Е. Ерланова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • А.Б. Нугуманова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • Ж.З. Жантасова Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
  • Е.М. Байбурин Восточно-Казахстанский государственный университет им. С. Аманжолова (Усть-Каменогорск, Казахстан)
Ключевые слова: тематическое моделирование, обработка естественного языка, вероятностные языковые модели, латентное размещение Дирихле, R

Аннотация

В работе представлены результаты тематического моделирования текстовых учебных материалов. Учебные материалы являются электронными конспектами лекций, используемых преподавателями для подготовки к занятиям по информатике. Методы тематического моделирования позволяют без дополнительной ручной работы систематизировать содержание текстовых документов, выделить в них главные темы и показать, как эти темы распределены внутри документов. Другими словами, эти методы позволяют сформировать так называемую тематическую модель, которая ставит в соответствии с заданной коллекцией документов набор тем, характеризующих содержание документов из этой коллекции. В качестве метода тематического моделирования используется латентное размещение Дирихле, а в качестве среды для реализации метода — язык R. Разработанное веб-приложение является интерактивным и предоставляет пользователю (преподавателю) набор визуальных инструментов тематического моделирования. Благодаря визуализации улучшается эргономика работы с учебными материалами, экономится время, затрачиваемое на изучение, анализ, подбор соответствующей учебной литературы.

DOI 10.14258/izvasu(2018)4-12

Скачивания

Данные скачивания пока не доступны.

Литература

Jockers M.L. Macroanalysis: Digital methods and literary history. — University of Illinois Press, 2013.

Blei D.M. Probabilistic topic models // Communications of the ACM. — 2012. — Т. 55. — №. 4.

Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1. — № 6.

Коляда А.С., Яковенко В.А., Гогунский В.Д., Яковенко В.О., Гогунський В.Д. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных // Pratsi. — 2014. — № 1 (43).

David M. Blei, Andrew Y.Ng, Michael I. Jordan. Latent Dirichlet Allocation // Journal of Machine Learning Research. — Stanford, 2003. — 1/03.

Минаев В.А., Королев И.Д., Кисленко И.А. Методы выявления латентной и негативной информации в текстовых документах // Технологии техносферной безопасности. — 2016. — №. 5.

Celebic G., Rendulic D. Basic Concepts of Information and Communication Technology // Handbook [Electronic resourse]. — URL: http://www.itdesk.info/handbook_basic_ ict_concepts.pdf (дата обращения: 19.05.2018).

Computer Architecture. Online open course [Electronic resourse]. — URL: https://learn.saylor.org/course/view.php?id=71 (дата обращения: 19.05.2018).

Manning C. et al. The Stanford CoreNLP natural language processing toolkit // Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations. — 2014.

Chen F. Topic Modeling of Document Metadata for Visualizing Collaborations over Time / P. Chiu, S. Lim // Proc. of the Int. Conf. on Intelligent User Interfaces (IUI). — 2016.
Опубликован
2018-09-14
Как цитировать
Ерланова, Р., Нугуманова, А., Жантасова, Ж., & Байбурин, Е. (2018). Тематическое моделирование текстовых учебных материалов по информатике средствами языка R. Известия Алтайского государственного университета, (4(102), 68-72. https://doi.org/https://doi.org/10.14258/izvasu(2018)4-12