Вопросы по теме 'fuzzy-comparison'

Как два проверить, совпадают ли строки двух неструктурированных уличных адресов?
Мне нужно сравнить два неструктурированных адреса и определить, одинаковы ли они (или достаточно похожи). Сценарий Адрес предоставляется конечным пользователем в виде обычного текста. Нет ничего, что могло бы помочь пользователю писать более...
1572 просмотров

Как мне нечеткое совпадение элементов в столбце массива в Python?
У меня есть массив названий команд из NCAA, а также связанная с ними статистика. Названия школ часто сокращаются или полностью опускаются, но обычно есть общий элемент во всех вариантах названия (например, Alabama Crimson Tide vs Crimson Tide). Все...
1959 просмотров
schedule 02.12.2021

Получение неправильной оценки из нечеткого wuzzy partial_ratio
Я новичок в Python и пытаюсь использовать нечеткое wuzzy для нечеткого сопоставления. Я считаю, что получаю неверные результаты за совпадения с помощью функции partial_ratio. Вот мой исследовательский код: >>>from fuzzywuzzy import...
810 просмотров
schedule 12.10.2021

Методы поиска почти повторяющихся записей
Я пытаюсь очистить базу данных, которая за долгие годы накопила много повторяющихся записей с немного разными именами. Например, в таблице компаний есть такие названия, как «Some Company Limited» и «SOME COMPANY LTD!». Мой план состоял в том,...
14466 просмотров

Хорошие модули Python для нечеткого сравнения строк?
Я ищу модуль Python, который может выполнять простые сравнения нечетких строк. В частности, я хотел бы получить процент от того, насколько похожи строки. Я знаю, что это потенциально субъективно, поэтому я надеялся найти библиотеку, которая, помимо...
78663 просмотров

Сравнение (похожих) изображений с Python / PIL
Я пытаюсь вычислить сходство (читай: расстояние Левенштейна ) двух изображений, используя Python 2.6 и PIL. Я планирую использовать библиотеку python-levenshtein для быстрого сравнения. Главный вопрос: Какая стратегия сравнения...
9755 просмотров

Как выбрать алгоритм нечеткого сопоставления?
Мне нужно знать критерии, которые отличают нечеткие алгоритмы друг от друга между этими тремя: Алгоритм расстояния Левенштейна Расстояние Левенштейна - это строковая метрика для измерения разницы между двумя последовательностями. Неформально...
1517 просмотров
schedule 24.04.2022

Нечеткое совпадение строк
После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание невелико. Например, фактический текст «ДАТА» выглядит как «DHTE» или «0HTE». В основном мне нужно идентифицировать и...
1409 просмотров
schedule 08.06.2022

Argmax без ограничения дубликатов numpy - нечеткое сопоставление строк
У меня есть два списка строк, один называется l1 , другой l2 . Мне интересно найти для каждой строки в l1 наиболее подходящую строку в l2 (но не наоборот, т.е. меня интересуют только строки в l1 ). Я знаю, что идеальных пар не бывает. Я...
271 просмотров

Евклидово расстояние, когда сходные объекты слегка смещены
Допустим, я хочу найти аналогичный вектор для вектора a = [0 0 2 0 0 0 0 0 0] У меня есть два кандидата: b1 = [0 0 0 2 0 0 0 0 0] , где "функция" находится всего в 1 позиции от нее. b2 = [0 0 0 0 0 0 0 2 0] , где "функция" находится на...
308 просмотров
schedule 02.08.2022

Модуль регулярных выражений Python: значение нечеткости
Я использую функцию "нечеткого соответствия" модуля Regex . Как я могу получить «значение нечеткости» «совпадения», которое указывает, насколько шаблон отличается от строки, точно так же, как «расстояние редактирования» в Левенштейне? Я думал,...
1125 просмотров
schedule 15.09.2022

scala объединяет кортежи, используя нечеткое сопоставление строк
Вход: val input = List((a, 10 Inches), (a, 10.00 inches), (a, 15 in), (b, 2 cm), (b, 2.00 CM)) Мне нравится иметь выход val output = List((a, 10 Inches, 0.66), (b, 2 cm, 1)) У меня также есть служебная функция, которая возвращает...
647 просмотров
schedule 13.09.2022

Использование штрихов пера с алгоритмом нечеткой точности в качестве ключа шифрования
Как я могу зашифровать / расшифровать с нечеткой точностью? Я хочу иметь возможность использовать Stroke на InkCanvas в качестве ключа для моего шифрования, но при повторном дешифровании пользователю не нужно рисовать точный символ, только...
794 просмотров

Есть ли реализация этого метода сопоставления строк в python?
Я пытаюсь выяснить, какие записи в моем хранилище данных являются почти дубликатами, используя приблизительное сопоставление строк. Есть ли какая-либо реализация следующего подхода в python, или мне нужно попытаться свернуть свой собственный?...
884 просмотров

Нечеткое сопоставление текста
Мне нужно попытаться сопоставить данный текст с текстом в базе данных. Примером этого является: Данный текст: Пакет технологий Acura MDX Элементы базы данных: Tech Pkg Technology Pkg с навигацией Tech Pkg с пакетом развлечений Base FWD...
540 просмотров
schedule 21.01.2023

Разделить звук речи на произнесенное слово
У меня есть аудиофайл с длинным текстом, в котором разные разделы начинаются с произносимого слова « Chapter » (озвучено одним и тем же оратором). Есть ли способ разделить аудиофайл на файлы меньшего размера по этим словам? Я думаю вырезать одно...
1409 просмотров

Нечеткое сопоставление с использованием библиотеки SimMetrics
Мне нужна помощь здесь. Как бы, я создаю простую инструкцию SQL для выбора имен @userEnteredName с этими функциями. Другими словами, я хочу получить имена клиентов из таблицы клиентов, где пользователь ввел smyth, и получить обратно smith, smitty и...
1447 просмотров

Последовательно задайте имена в переменной, затем создайте новую переменную с кратчайшим именем для близких совпадений.
Предположим, что есть вектор символов названий компаний, где имена бывают разных форм. Вот небольшая версия фрейма данных из 10 000 строк; он показывает желаемый второй вектор ("two.names"). structure(list(firm = structure(1:8, .Label =...
289 просмотров
schedule 27.07.2023

Нечеткий список людей
Я пытаюсь увидеть, одинаков ли фильм между двумя страницами, и для этого я хотел бы сравнить актеров в качестве одного из критериев. Однако актеры часто указаны по-разному на разных страницах. Например: На этой странице...
375 просмотров
schedule 11.05.2023

Детектор повторяющихся имен с нечеткой логикой
Я работаю над приложением с большим количеством продуктов и брендов. Нам нужно сопоставить названия брендов и идентифицировать дубликаты (возможно, неправильно набранные) и объединить их. Что-то похожее на то, что Android делает для контактов. Я...
153 просмотров