Статьи по теме word-embeddings

Публикации по теме 'word-embeddings'

Word2Vec, или Как компьютеры научились говорить, как мы!

Если вы занимались поиском на естественном языке или обработкой естественного языка (NLP) , возможно, вы слышали о word2vec. Если нет, мы вас прикрыли. Word2Vec — это метод машинного обучения , который существует с 2013 года благодаря Томашу Миколову и его команде по обработке и анализу данных в Google . Он используется для обучения компьютера изучению вашего языка (лексики, выражений и т. д.) с использованием корпуса (библиотеки контента). Если вы не специалист по данным, в этой..

Гиперболические иерархические вложения с HyperLib

В этом посте мы рассмотрим еще один способ создания гиперболических вложений. Этот подход хорош, когда у вас есть набор точек данных, и для каждой точки данных у вас есть соответствующие «положительные» точки данных и «отрицательные» точки данных. Положительные точки данных — это точки данных, которые вы хотите расположить близко друг к другу в пространстве встраивания, а отрицательные точки данных — это точки данных, которые вы хотите отдалить. Этот алгоритм отлично подходит для..

Интуитивное раскрытие вложений слов: раскрытие семантических отношений и улучшение моделей НЛП

Добро пожаловать в мир встраивания слов! В области обработки естественного языка (NLP) понимание сложных отношений между словами и контекстом является сложной задачей. Используя силу встраивания слов, мы можем разблокировать семантические связи и улучшить модели НЛП. Присоединяйтесь к нам, пока мы погружаемся в…

Небольшой сбой: вы имеете в виду «больше или равно», а не «больше или меньше» выше.

Небольшой сбой: вы имеете в виду «больше или равно», а не «больше или меньше» выше. Большое спасибо за красивую статью! Я нашел особенно полезным то, что вы изложили это как сравнение GloVe с word2vec и LSA. Мне было интересно наблюдать, как «магические» свойства (для меня это магия) вложений word2vec могут быть вызваны преднамеренной конструкцией. У меня сложилось впечатление (которое может быть ложным), что на практике word2vec гораздо более популярен, чем GloVe. Разделяете ли вы это..

Вложения слов в НЛП

В обработке естественного языка мы обычно имеем дело с текстовыми данными. Мы очищаем данные, применяем различные методы предварительной обработки и, наконец, передаем обработанные данные в модель машинного обучения или глубокого обучения для целей обучения. Модель понимает не текстовые данные, как человек, а только числа. Когда мы читаем слово «крикет», мы мгновенно связываем это слово со многими другими подобными словами, такими как игра, летучая мышь, мяч и т. Д., Потому что наш разум..

Объяснение встраивания слов, LSTM и CNN

TL;DR Это дополнение к моему посту Предсказание цены с сентиментом и без него . В нем представлен краткий обзор вложений слов, сетей долговременной памяти и сверточных нейронных сетей. Вложения слов Традиционные методы встраивания на основе частоты для создания текстовых представлений, такие как TF-IDF и векторизация подсчета, создают разреженные представления, которые не отражают отношения между словами. Разреженные представления могут привести к очень многомерным пространствам, что..

Семантический поиск с использованием встраиваний BERT

BERT - это современная современная модель для многих задач НЛП. Вывод BERT, который по сути является контекстно-зависимыми векторами слов, использовался для последующих задач, таких как классификация и NER. Это достигается путем точной настройки самой модели BERT с очень небольшим количеством данных, специфичных для конкретной задачи, без специфической для задачи архитектуры. Семантический поиск - это вариант использования BERT , когда предварительно обученные векторы слов могут..