Публикации по теме 'similarity'


Как найти повторяющиеся вопросы Quora с помощью машинного обучения
Quora - потрясающая платформа, где интернет-компании задают вопросы, на них отвечают, следят за ними и редактируют их. Это дает людям возможность учиться друг у друга и лучше понимать мир. Около 100 миллионов человек посещают Quora каждый месяц, поэтому неудивительно, что многие люди задают похожие вопросы. Не лучше для qurara просить своих последователей написать ответ на тот же вопрос. Так что будет лучше, если есть система, способная определять, что новый вопрос похож на вопросы,..

Вопросы по теме 'similarity'

Алгоритм сходства?
Если это может показаться дубликатом, прошу прощения, но, поскольку предыдущий вопрос, похоже, вызвал некоторую путаницу, вот еще один вариант. У меня есть 2 базовых массива: float[] baseArr1 = new float[3] {0.430651724, 0.137407839,...
701 просмотров
schedule 10.10.2021

Логарифмическое подобие для кластеризации документов
Я использую следующую формулу логарифмической вероятности для сравнения сходства между документом и кластером: log p (d | c) = sum (c (w, d) * log p (w | c)); c (w, d) - частота слова в документе, а p (w | c) - вероятность того, что слово w будет...
768 просмотров

Индексирование узла Neo4j: как изменить подобие Lucene по умолчанию?
Я использую Neo4j (1.9) и lucene core 3.5, благодаря поддержке, предлагаемой библиотекой neo4j-lucene-index. В моем коде я создаю новый индекс узла следующим образом: HashMap<String, String> stringMap = new HashMap<String,...
457 просмотров
schedule 29.11.2021

алгоритм, чтобы найти оценку сходства от друзей facebook и twitter?
Используя PHP, я получил список друзей из facebook и twitter и сохранил каждый список в ассоциативном массиве. У меня есть их имена и местонахождение. Я хочу провести сравнение друзей из fb и twitter на основе их имени и местоположения и дать оценку...
314 просмотров

Как мне сгенерировать данные из матрицы сходства?
Предположим, есть 14 объектов, каждый из которых имеет или не имеет 1000 двоичных функций. У меня есть матрица подобия 14x14, но не сырые данные 14x1000. Есть ли способ восстановить или сгенерировать что-то похожее на необработанные данные, учитывая...
624 просмотров
schedule 09.09.2021

Аналогичный метод из модуля nltk дает разные результаты на разных машинах. Почему?
Я провел несколько вводных классов по интеллектуальному анализу текста с помощью Python, и класс попробовал аналогичный метод с предоставленными практическими текстами. Некоторые студенты получили разные результаты для text1.similar (), чем другие....
2513 просмотров
schedule 17.11.2021

C ++ Сравнить первый и второй элемент для всех пар в контейнере
У меня есть такой вектор пары: std::vector < std::pair < int /*Val1*/, int /*Val2*/ > > myVector; Каков эффективный способ сравнения для каждой пары в myVector, первый и второй элементы пары (Val1 и Val2) одинаковы или нет....
891 просмотров
schedule 04.11.2021

расстояние редактирования графа (GED) и (не) -изоморфные графы
Требуется ли для расстояния редактирования графа (GED) между двумя графами G1 и G2, чтобы графы (G1, G2) были изоморфны?
44 просмотров
schedule 01.11.2021

Как мы можем сравнить результаты кластеризации графов, чтобы найти похожие гены в сети белок-белкового взаимодействия?
Наша цель - найти похожие гены в наборе сетевых данных ppi, который имеет форму взвешенного списка редакторов. После того, как мы используем алгоритмы кластеризации графов, как мы измерим сходство этих кластеров? Пример строки нашего набора данных:...
42 просмотров

Как увеличить скорость вычисления оценки сходства строк в кадре данных?
У меня есть кадр данных следующим образом: df = pd.DataFrame(data=[[1, 'Berlin',], [2, 'Paris', ], [3, 'Lausanne', ], [4, 'Bayswater',], [5, 'Table Bay', ], [6, 'Bejing',], [7,...
66 просмотров
schedule 20.02.2022

Сравните 5000 строк с PHP Левенштейна
У меня 5000, а иногда и больше строк почтовых адресов в массиве. Я хотел бы сравнить их все с levenshtein, чтобы найти похожие совпадения. Как я могу сделать это, не перебирая все 5000 и не сравнивая их напрямую с любыми другими 4999? Изменить:...
9158 просмотров

Эффективное обновление показателей косинусного подобия
Мое приложение для iPhone использует базу данных SQLite со следующей схемой: items(id, name,...) -> эта таблица содержит 50 записей tags(id, name) -> эта таблица содержит 50 записей item_tags(id, item_id, tag_id, user_id) сходства (id,...
484 просмотров
schedule 03.03.2022

Сходство слова и существительного Python NLTK
У меня простая проблема в Python с использованием NLTK. Я хочу проверить сходство слов. После некоторого исследования я пытаюсь использовать wordnet.synsets() . Но я не понимаю некоторых результатов: syns1 = wordnet.synsets('location') syns2 =...
312 просмотров
schedule 08.03.2022

Сравнить алгоритмы сходства
Я хочу использовать функции подобия строк для поиска поврежденных данных в моей базе данных. Я наткнулся на несколько из них: Яро, Яро-Винклер, Левенштейн, Евклидова и Q-грамм, Я хотел знать, в чем разница между ними и в каких...
18669 просмотров

Как получить косинусное сходство сложности в Matlab?
Я реализовал косинусное сходство в Matlab следующим образом. На самом деле у меня есть двумерная матрица 50 на 50. Чтобы получить косинус, я должен сравнивать элементы в построчной форме. for j = 1:50 x = dat(j,:); for i = j+1:50...
2670 просмотров
schedule 13.03.2022

Мера сходства для строк в Python
Я хочу измерить сходство между двумя словами. Идея состоит в том, чтобы прочитать текст с помощью OCR и проверить результат на наличие ключевых слов. Функция, которую я ищу, должна сравнивать два слова и возвращать сходство в%. Так что сравнение...
2046 просмотров
schedule 15.03.2022

Был ли недавний прорыв в алгоритме кластеризации текстовых потоков на основе сходства?
Мне нужен легкий инструмент для кластеризации текстового потока. Легкий в том смысле, что у него нет памяти, чтобы он мог запоминать предыдущие текстовые записи. Текстовый поток здесь означает непрерывную подачу буквенно-цифровых и...
355 просмотров
schedule 22.03.2022

Мера подобия косинусов: множественные результаты
Моя программа использует кластеризацию для создания подмножеств похожих элементов, а затем использует меру сходства по косинусу как метод определения степени сходства кластеров. Например, если у пользователя 1 есть 3 кластера, а у пользователя 2 есть...
4229 просмотров

Сгруппировать похожие кривые с учетом принадлежности?
В настоящее время у меня есть 6 кривых, показанных 6 разными цветами, как показано ниже. Фактически, 6 кривых созданы в результате 6 испытаний одного и того же эксперимента . Это означает, что в идеале они должны иметь одну и ту же кривую, но...
266 просмотров
schedule 20.04.2022

Создание списка ребер, отсортированных по индексу Жаккара их конечных точек в IGraph
Мне нужна помощь, чтобы понять, как сортировать ребра по индексу Жаккара их конечных точек в интерфейсе C интерфейса igraph . Мне удалось вычислить индексы Жаккара для всех пар, но мне просто нужен список индексов Жаккара соседних вершин. В...
488 просмотров
schedule 17.04.2022