Прихований розподіл Діріхле, або скорочено LDA, — це алгоритм машинного навчання без контролю. Подібно до алгоритму кластеризації K-means, LDA буде спробувати згрупувати слова та документи в попередньо визначену кількість кластерів (тобто теми). 1 серпня 2022 р
LDA розглядає кожен документ як суміш тем, а кожну тему як суміш слів. Він повторює загальну кількість тем і кожне слово. Він випадковим чином призначить кожне слово темі та оцінить, як часто це слово зустрічається в цій темі разом з іншими словами.
LDA працює шляхом визначення лінійної комбінації ознак, яка розділяє або характеризує два або більше класів об’єктів або подій. LDA робить це, проектуючи дані з двома чи більше вимірами в один вимір, щоб їх було легше класифікувати.
На відміну від цього, LDA є генеративною імовірнісною моделлю, яка використовує байєсівський висновок для пошуку основних тем у корпусі текстів. Припускається, що кожен документ є комбінацією невеликої кількості прихованих тем кожне слово породжується певною темою.
GuidedLDA АБО SeededLDA реалізує латентний розподіл Діріхле (LDA) використання згорнутої вибірки Гіббса. GuidedLDA можна керувати, встановлюючи кілька вихідних слів для кожної теми. Що змусить теми сходитися в цьому напрямку.
Це один із найпопулярніших методів тематичного моделювання. Кожен документ складається з різних слів, і кожна тема також має різні слова, які до неї належать. Мета LDA — знайти теми, до яких належить документ, на основі слів у ньому.