Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов Привет! Меня зовут Ирина Кротова, я…
Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократит... https://clck.ru/349PgQ
Автор: Habr все новости об IT