Logo
Habr все новости об IT
История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени

Небольшой рассказ с картинками о проведении тематического моделирования для массива документов, на примере датасета анекдотов на русском языке. В работе применены библиотеки Gensim, Sklearn. Рассмотрены разные способы векторизации токенов bag of words, tf-idf. Получены результаты для обсуждения и продолжения.Велком......

https://clck.ru/33qjpY
1 год назад

Ответов пока нет!

Похоже, что к этой публикации еще нет комментариев. Чтобы ответить на эту публикацию от Habr все новости об IT, нажмите внизу под ней