Чим відрізняється латентна семантична індексація (LSI) від Word2vec?


Відповідь 1:

Основна різниця

Word2vec - це модель прогнозування, тобто з урахуванням вектора слова передбачити контекстне слово векторів (skipgram).

LSI - це модель на основі підрахунку, де подібні умови мають однакові підрахунки для різних документів. Тоді розміри цієї матриці підрахунку зменшуються за допомогою SVD.

Для обох моделей подібність може бути обчислена за допомогою подібності косинусу.

Чи справді Word2vec краще

Алгоритм Word2vec показав кращу схожість. Вважається, що модель, що базується на прогнозуванні, краще сприймає подібність. Але досі не дуже зрозуміло, чому. Існує стаття http: //www.aclweb.org/anthology / ..., яка наводить аргументи, що саме через настройку параметрів цієї моделі вона працює краще, ніж LSI.

Дослідження в вкладках

Проводилися активні дослідження в області NLP щодо вбудовування. Були досліджені різні методи вбудовування, натхненні word2vec, як контекст, заснований на залежності, CPHRASE тощо.

http: //www.aclweb.org/anthology / ...

https: //www.aclweb.org/anthology ...

Також була зроблена робота Річарда Сочера, яка створює модель, засновану як на передбаченні, так і на підрахунку під назвою Glove. Вони також показали подібні результати до word2vec. Глобальні вектори представлення слова

Де все було випробувано і перевірено

Моделі нейронної мережі показали, що вони працюють краще, використовуючи такі щільні вбудовані слова word2vec для виконання різних завдань в NLP, таких як представлення речень, пошук інформації, витяг знань, семантичний аналіз тощо. Вони краще виконуються для різних завдань оцінювання подібності та для різних інших завдань композиції для словосполучень і речень


Відповідь 2:

Це дві різні речі, і я не погодився б, що вони дуже схожі методи - ось чому:

Те саме введення

Таким чином, вхід до LSI та word2vec є обома бінарними векторами мішок (розмірність: (1xN_unique_words) з ​​нулями всюди, крім тих, якщо певне слово присутнє в тексті.

Але вони мають різні цілі та результати

LSI більше схожий на LDA, і тому головна мета полягає в описі тексту чи корпусу, використовуючи обмежений перелік зважених слів:

Напр

'-0,340 * "категорія" + 0,298 * "$ M $" + 0,183 * "алгебра" + -0,174 * "функтор" + -0,168 * "оператор"'

(від gensim: моделювання тем для людей)

Word2Vec з іншого боку моделює слова, навчаючи особливість вектора. Вони знайшли моделювання смислових відносин до інших слів. ("Людина + Королева = Король")

Отож, я сподіваюся, що ви можете побачити, що вбудовування word2vec мають більш дрібну описову структуру, ніж LSI.

тл; д-р

LSI моделює великі тексти, використовуючи невелику кількість зважених слів. (текстовий рівень)

Word2Vec моделює слова семантичним відношенням до інших слів. (рівень слова)