Тематическое моделирование текстовых учебных материалов по информатике средствами языка R

Р.Е. Ерланова, А.Б. Нугуманова, Ж.З. Жантасова, Е.М. Байбурин

Аннотация


В работе представлены результаты тематического моделирования текстовых учебных материалов. Учебные материалы являются электронными конспектами лекций, используемых преподавателями для подготовки к занятиям по информатике. Методы тематического моделирования позволяют без дополнительной ручной работы систематизировать содержание текстовых документов, выделить в них главные темы и показать, как эти темы распределены внутри документов. Другими словами, эти методы позволяют сформировать так называемую тематическую модель, которая ставит в соответствии с заданной коллекцией документов набор тем, характеризующих содержание документов из этой коллекции. В качестве метода тематического моделирования используется латентное размещение Дирихле, а в качестве среды для реализации метода — язык R. Разработанное веб-приложение является интерактивным и предоставляет пользователю (преподавателю) набор визуальных инструментов тематического моделирования. Благодаря визуализации улучшается эргономика работы с учебными материалами, экономится время, затрачиваемое на изучение, анализ, подбор соответствующей учебной литературы.

DOI 10.14258/izvasu(2018)4-12


Ключевые слова


тематическое моделирование; обработка естественного языка; вероятностные языковые модели; латентное размещение Дирихле; R

Полный текст:

PDF

Литература


Jockers M.L. Macroanalysis: Digital methods and literary history. — University of Illinois Press, 2013.

Blei D.M. Probabilistic topic models // Communications of the ACM. — 2012. — Т. 55. — №. 4.

Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1. — № 6.

Коляда А.С., Яковенко В.А., Гогунский В.Д., Яковенко В.О., Гогунський В.Д. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных // Pratsi. — 2014. — № 1 (43).

David M. Blei, Andrew Y.Ng, Michael I. Jordan. Latent Dirichlet Allocation // Journal of Machine Learning Research. — Stanford, 2003. — 1/03.

Минаев В.А., Королев И.Д., Кисленко И.А. Методы выявления латентной и негативной информации в текстовых документах // Технологии техносферной безопасности. — 2016. — №. 5.

Celebic G., Rendulic D. Basic Concepts of Information and Communication Technology // Handbook [Electronic resourse]. — URL: http://www.itdesk.info/handbook_basic_ ict_concepts.pdf (дата обращения: 19.05.2018).

Computer Architecture. Online open course [Electronic resourse]. — URL: https://learn.saylor.org/course/view.php?id=71 (дата обращения: 19.05.2018).

Manning C. et al. The Stanford CoreNLP natural language processing toolkit // Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations. — 2014.

Chen F. Topic Modeling of Document Metadata for Visualizing Collaborations over Time / P. Chiu, S. Lim // Proc. of the Int. Conf. on Intelligent User Interfaces (IUI). — 2016.




DOI: http://dx.doi.org/10.14258/izvasu(2018)4-12

Метрики статей

Загрузка метрик ...

Metrics powered by PLOS ALM

Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2018 Р.Е. Ерланова, А.Б. Нугуманова, Ж.З. Жантасова, Е.М. Байбурин

Архив журнала с 1996 по 2016 гг. расположен на старой версии сайта по адресу: http://izvestia.asu.ru/ru/

Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

ISSN 1561-9443; ISSN (Online) 1561-9451