Публикации по теме 'levenshtein-distance'


Расстояния подобия для обработки естественного языка
Важность хорошего текстового представления: Разработка и выбор функций, безусловно, является одним из самых важных шагов любого проекта машинного обучения. Независимо от того, какой алгоритм вы решите использовать, если функция, которую вы ему предоставляете, плохая, результаты, которые вы собираетесь получить, тоже будут плохими. Это хорошо выражено выражением: «мусор на входе, мусор на выходе». Разработка функций оптимальна только в том случае, если мы хорошо знаем проблему и..

Вопросы по теме 'levenshtein-distance'

Как вычислить несколько связанных расстояний Левенштейна?
Для двух строк равной длины расстояние Левенштейна позволяет найти минимальное количество преобразований, необходимых для получения второй строки, учитывая первую. Однако я хотел бы найти способ настроить алогритм для нескольких пар строк, учитывая,...
1136 просмотров
schedule 14.10.2021

Изменить расстояние между двумя графиками
Мне просто интересно, есть ли что-то подобное для графиков, например, для строк, где у нас есть расстояние Левенштейна (или расстояние редактирования) между двумя строками? Я имею в виду скалярную меру, которая определяет количество атомарных...
9832 просмотров

Сравнение множественных последовательностей произвольной строки с ориентированными символами
Основная проблема: Я ищу алгоритм для расчета максимального экономичного расстояния между набором строк. Под расстоянием я подразумеваю нечто похожее на расстояние Дамерау – Левенштейна т.е. минимальное количество удалений, вставок, замен и...
490 просмотров

Как изменить алгоритм Левенштейна, чтобы узнать, вставил ли он, удалил или заменил символ?
Итак, я пытаюсь придумать ответвление алгоритма Левенштейна, в котором я отслеживаю, какие преобразования я сделал в строке (вставил a или заменил a на b). Пример: В основном, скажем, я вычисляю расстояние редактирования для «bbd» и «bcd»....
2276 просмотров
schedule 25.09.2021

Python: эффективный способ найти расстояние редактирования Левенштейна в матрице
Я хотел бы выявить сходство между двумя списками, после чего я хочу выполнить кластеризацию описаний. L2D1 L2D2 L2D2 .........L2Dn L1D1 0 0.3 0.8............0.5 L1D2 0.2 0.7 0.3............0.2...
721 просмотров

Сравните 5000 строк с PHP Левенштейна
У меня 5000, а иногда и больше строк почтовых адресов в массиве. Я хотел бы сравнить их все с levenshtein, чтобы найти похожие совпадения. Как я могу сделать это, не перебирая все 5000 и не сравнивая их напрямую с любыми другими 4999? Изменить:...
9158 просмотров

Как эффективно рассчитать расстояние Левенштейна для большого словаря?
У меня довольно большой словарь (200 тыс. слов, длина 2-16 символов) и различные входные строки (5-200 слов, разделенных пробелами, длина 2-20 символов). Используя PHP в режиме cli, мне нужно сравнить каждое входное слово со словами в словаре и...
716 просмотров
schedule 07.03.2022

Сравнить алгоритмы сходства
Я хочу использовать функции подобия строк для поиска поврежденных данных в моей базе данных. Я наткнулся на несколько из них: Яро, Яро-Винклер, Левенштейн, Евклидова и Q-грамм, Я хотел знать, в чем разница между ними и в каких...
18669 просмотров

mySQL: использование расстояния Левенштейна для поиска дубликатов в 20 000 строк
В основном у меня есть таблица из двух столбцов, содержащая первичный ключ и названия компаний с примерно 20 000 строк. Моя задача найти все повторяющиеся записи. Первоначально я пытался использовать soundex, но он соответствовал компаниям,...
3215 просмотров
schedule 17.03.2022

Нахождение одной записи пользователя в некоторых неполных данных?
Я нахожусь в процессе создания системы, в которой пользователи должны зарегистрироваться. Эти пользователи, вероятно, также будут частью более крупной базы данных клиентов, и я хотел бы связать регистрацию с идентификатором пользователя в более...
62 просмотров
schedule 26.04.2022

В чем разница между расстоянием Левенштейна и алгоритмом Вагнера-Фишера
Расстояние Левенштейна - это строковая метрика для измерения разницы между двумя последовательностями. Алгоритм Вагнера – Фишера - это алгоритм динамического программирования, который вычисляет расстояние редактирования между двумя строками символов....
2529 просмотров

Как я могу адаптировать алгоритм расстояния Левенштейна, чтобы ограничить совпадения одним словом?
Я использую алгоритм расстояния Левенштейна в C++ для сравнения двух строк, чтобы измерить, насколько они близки друг к другу. Однако простой алгоритм расстояния Левенштейна не различает границы слов, разделенные пробелами. Это приводит к меньшим...
3163 просмотров

Формула расстояния Левенштейна в CoffeeScript?
Я пытаюсь создать или найти реализацию CoffeeScript формулы расстояния Левенштейна, также известную как Edit Distance. Вот что у меня есть до сих пор, любая помощь будет очень признательна. levenshtein = (s1,s2) -> n = s1.length m =...
552 просмотров

Расстояния Левенштейна и специальные символы
Я реализовал алгоритм расстояния Левенштейна, используя древовидное дерево, как описано здесь Стивом Хановым . Однако у меня возникают трудности с обработкой специальных символов. Например, если я вычисляю расстояние между Гроссманном и...
881 просмотров

Будут ли эти оптимизации моей реализации diff на Ruby улучшать производительность в приложении Rails?
<tl;dr> Стоит ли использовать оптимизации, перечисленные в самом низу этого письма (см. <optimizations> ), в моей реализации diff на Ruby для создания заплат diff при создании исправлений diff при управлении версиями исходного кода?...
184 просмотров

PHP MySQL - альтернатива Левенштейна в десятичной системе счисления
У меня есть набор данных с координатами широты и долготы (два отдельных десятичных столбца). Мне нужно выполнить поиск по ним и отсортировать их по близости на основе предоставленных координат широты и долготы. Я не против преобразования столбцов...
340 просмотров

Почему я получаю неправильное расстояние Левенштейна?
Я пытаюсь реализовать алгоритм расстояния Левенштейна на С# (для практики и потому, что это было бы удобно). Я использовал реализацию со страницы Википедии , но по какой-то причине я получаю неправильное расстояние на один набор слов. Вот код (из...
82 просмотров
schedule 19.07.2022

Pyspark levenshtein Join застрял на одной сцене
Я хочу выполнить соединение на основе расстояния Левенштейна. У меня есть 2 кадра данных: Данные : небольшой фрейм данных со 130 000 строк. Сирена : большой фрейм данных, представляющий таблицу stockunitelegale базы данных SIREN с 20...
160 просмотров

Почему этот код создает экспоненциальный цикл? .Net, Расстояние Левенштайна
Поэтому недавно я приступил к проекту кодирования, чтобы попытаться создать некоторый код для математического создания способа изобразить, насколько похожи две строки. В своем исследовании я нашел множество примеров в Интернете, которые помогли мне...
180 просмотров

Вопрос о расстоянии Левенштейна
1) Почему мы добавляем 1 в этой строке? d[i-1, j] + 1, // deletion d[i, j-1] + 1, // insertion Линия if s[i] = t[j] then cost := 0 else cost := 1 следует учитывать удаленные/меньшие длины слов, или я что-то...
1043 просмотров
schedule 30.09.2022