Публикации по теме 'similarity'
Как найти повторяющиеся вопросы Quora с помощью машинного обучения
Quora - потрясающая платформа, где интернет-компании задают вопросы, на них отвечают, следят за ними и редактируют их. Это дает людям возможность учиться друг у друга и лучше понимать мир. Около 100 миллионов человек посещают Quora каждый месяц, поэтому неудивительно, что многие люди задают похожие вопросы. Не лучше для qurara просить своих последователей написать ответ на тот же вопрос. Так что будет лучше, если есть система, способная определять, что новый вопрос похож на вопросы,..
Вопросы по теме 'similarity'
Алгоритм сходства?
Если это может показаться дубликатом, прошу прощения, но, поскольку предыдущий вопрос, похоже, вызвал некоторую путаницу, вот еще один вариант.
У меня есть 2 базовых массива:
float[] baseArr1 = new float[3] {0.430651724, 0.137407839,...
701 просмотров
schedule
10.10.2021
Логарифмическое подобие для кластеризации документов
Я использую следующую формулу логарифмической вероятности для сравнения сходства между документом и кластером: log p (d | c) = sum (c (w, d) * log p (w | c)); c (w, d) - частота слова в документе, а p (w | c) - вероятность того, что слово w будет...
768 просмотров
schedule
26.11.2021
Индексирование узла Neo4j: как изменить подобие Lucene по умолчанию?
Я использую Neo4j (1.9) и lucene core 3.5, благодаря поддержке, предлагаемой библиотекой neo4j-lucene-index. В моем коде я создаю новый индекс узла следующим образом:
HashMap<String, String> stringMap = new HashMap<String,...
457 просмотров
schedule
29.11.2021
алгоритм, чтобы найти оценку сходства от друзей facebook и twitter?
Используя PHP, я получил список друзей из facebook и twitter и сохранил каждый список в ассоциативном массиве. У меня есть их имена и местонахождение. Я хочу провести сравнение друзей из fb и twitter на основе их имени и местоположения и дать оценку...
314 просмотров
schedule
13.10.2021
Как мне сгенерировать данные из матрицы сходства?
Предположим, есть 14 объектов, каждый из которых имеет или не имеет 1000 двоичных функций. У меня есть матрица подобия 14x14, но не сырые данные 14x1000. Есть ли способ восстановить или сгенерировать что-то похожее на необработанные данные, учитывая...
624 просмотров
schedule
09.09.2021
Аналогичный метод из модуля nltk дает разные результаты на разных машинах. Почему?
Я провел несколько вводных классов по интеллектуальному анализу текста с помощью Python, и класс попробовал аналогичный метод с предоставленными практическими текстами. Некоторые студенты получили разные результаты для text1.similar (), чем другие....
2513 просмотров
schedule
17.11.2021
C ++ Сравнить первый и второй элемент для всех пар в контейнере
У меня есть такой вектор пары:
std::vector < std::pair < int /*Val1*/, int /*Val2*/ > > myVector;
Каков эффективный способ сравнения для каждой пары в myVector, первый и второй элементы пары (Val1 и Val2) одинаковы или нет....
891 просмотров
schedule
04.11.2021
расстояние редактирования графа (GED) и (не) -изоморфные графы
Требуется ли для расстояния редактирования графа (GED) между двумя графами G1 и G2, чтобы графы (G1, G2) были изоморфны?
44 просмотров
schedule
01.11.2021
Как мы можем сравнить результаты кластеризации графов, чтобы найти похожие гены в сети белок-белкового взаимодействия?
Наша цель - найти похожие гены в наборе сетевых данных ppi, который имеет форму взвешенного списка редакторов. После того, как мы используем алгоритмы кластеризации графов, как мы измерим сходство этих кластеров?
Пример строки нашего набора данных:...
42 просмотров
schedule
02.12.2021
Как увеличить скорость вычисления оценки сходства строк в кадре данных?
У меня есть кадр данных следующим образом:
df = pd.DataFrame(data=[[1, 'Berlin',], [2, 'Paris', ],
[3, 'Lausanne', ], [4, 'Bayswater',],
[5, 'Table Bay', ], [6, 'Bejing',],
[7,...
66 просмотров
schedule
20.02.2022
Сравните 5000 строк с PHP Левенштейна
У меня 5000, а иногда и больше строк почтовых адресов в массиве. Я хотел бы сравнить их все с levenshtein, чтобы найти похожие совпадения. Как я могу сделать это, не перебирая все 5000 и не сравнивая их напрямую с любыми другими 4999?
Изменить:...
9158 просмотров
schedule
03.03.2022
Эффективное обновление показателей косинусного подобия
Мое приложение для iPhone использует базу данных SQLite со следующей схемой:
items(id, name,...) -> эта таблица содержит 50 записей
tags(id, name) -> эта таблица содержит 50 записей
item_tags(id, item_id, tag_id, user_id)
сходства (id,...
484 просмотров
schedule
03.03.2022
Сходство слова и существительного Python NLTK
У меня простая проблема в Python с использованием NLTK. Я хочу проверить сходство слов. После некоторого исследования я пытаюсь использовать wordnet.synsets() . Но я не понимаю некоторых результатов:
syns1 = wordnet.synsets('location')
syns2 =...
312 просмотров
schedule
08.03.2022
Сравнить алгоритмы сходства
Я хочу использовать функции подобия строк для поиска поврежденных данных в моей базе данных.
Я наткнулся на несколько из них:
Яро,
Яро-Винклер,
Левенштейн,
Евклидова и
Q-грамм,
Я хотел знать, в чем разница между ними и в каких...
18669 просмотров
schedule
11.03.2022
Как получить косинусное сходство сложности в Matlab?
Я реализовал косинусное сходство в Matlab следующим образом. На самом деле у меня есть двумерная матрица 50 на 50. Чтобы получить косинус, я должен сравнивать элементы в построчной форме.
for j = 1:50
x = dat(j,:);
for i = j+1:50...
2670 просмотров
schedule
13.03.2022
Мера сходства для строк в Python
Я хочу измерить сходство между двумя словами. Идея состоит в том, чтобы прочитать текст с помощью OCR и проверить результат на наличие ключевых слов. Функция, которую я ищу, должна сравнивать два слова и возвращать сходство в%. Так что сравнение...
2046 просмотров
schedule
15.03.2022
Был ли недавний прорыв в алгоритме кластеризации текстовых потоков на основе сходства?
Мне нужен легкий инструмент для кластеризации текстового потока. Легкий в том смысле, что у него нет памяти, чтобы он мог запоминать предыдущие текстовые записи. Текстовый поток здесь означает непрерывную подачу буквенно-цифровых и...
355 просмотров
schedule
22.03.2022
Мера подобия косинусов: множественные результаты
Моя программа использует кластеризацию для создания подмножеств похожих элементов, а затем использует меру сходства по косинусу как метод определения степени сходства кластеров. Например, если у пользователя 1 есть 3 кластера, а у пользователя 2 есть...
4229 просмотров
schedule
21.04.2022
Сгруппировать похожие кривые с учетом принадлежности?
В настоящее время у меня есть 6 кривых, показанных 6 разными цветами, как показано ниже. Фактически, 6 кривых созданы в результате 6 испытаний одного и того же эксперимента . Это означает, что в идеале они должны иметь одну и ту же кривую, но...
266 просмотров
schedule
20.04.2022
Создание списка ребер, отсортированных по индексу Жаккара их конечных точек в IGraph
Мне нужна помощь, чтобы понять, как сортировать ребра по индексу Жаккара их конечных точек в интерфейсе C интерфейса igraph .
Мне удалось вычислить индексы Жаккара для всех пар, но мне просто нужен список индексов Жаккара соседних вершин. В...
488 просмотров
schedule
17.04.2022