Вопросы по теме 'fuzzywuzzy'

Получение неправильной оценки из нечеткого wuzzy partial_ratio
Я новичок в Python и пытаюсь использовать нечеткое wuzzy для нечеткого сопоставления. Я считаю, что получаю неверные результаты за совпадения с помощью функции partial_ratio. Вот мой исследовательский код: >>>from fuzzywuzzy import...
810 просмотров
schedule 12.10.2021

Pandas: Как я могу повторить цикл for по двум различным фреймам данных?
Я пытаюсь рассчитать коэффициенты нечеткости для нескольких строк в двух фреймах данных: df1: id name 1 Ab Cd E 2 X.Y!Z 3 fgh I df2: name_2 abcde xyz Я хочу рассчитать коэффициент нечеткости между всеми значениями в...
5595 просмотров
schedule 20.11.2021

Многопроцессорность Python против списков для нечеткого
У меня есть два списка, которые можно сопоставить друг с другом. Мне нужно сопоставить каждое str1 слово с каждым списком из str2 слов. У меня есть список из 40 тысяч слов в str2 . Я хочу попробовать использовать multiprocessing , чтобы он...
172 просмотров
schedule 04.10.2021

Нечеткое совпадение двух фреймов данных на основе столбца значений списка
У меня есть два фрейма данных, которые я пытаюсь объединить по совпадению со значениями в столбце. Соответствующие столбцы - header1 в Df1 и header2 в Df2 (значение - list). Ищу адаптированный подход. Df1:...
46 просмотров
schedule 22.11.2021

Когда использовать функцию нечеткости для сравнения двух строк
Я изучаю fuzzywuzzy на Python. Я понимаю концепцию fuzz.ratio , fuzz.partial_ratio , fuzz.token_sort_ratio и fuzz.token_set_ratio . У меня вопрос, когда какую функцию использовать? Могу ли я сначала проверить длину двух строк, скажем,...
42097 просмотров
schedule 12.01.2022

Ошибка с FuzzyWuzzy: StringProcessor.replace_non_letters_non_numbers_with_whitespace (s)
Я не могу запустить следующую функцию: match, match_score = process.extractOne(score, pct_dict.keys()) Я получаю ошибку с пробелами, которую не могу решить. Есть идеи, что вызывает это? Что делать: если результат 15, он должен вернуть...
961 просмотров
schedule 02.03.2022

Как заменить строку, если она частично (до 90%) совпадает с искомой строкой в ​​Python при работе с Python-docx?
Я хочу заменить текст в моем текстовом документе. Я могу заменить текстовые строки, которые полностью совпадают, но я хочу заменить их, если они будут соответствовать искомой строке на 90%. Я использую python-docx для работы с документами Word....
460 просмотров
schedule 24.04.2022

Python Сравнение двух списков строк на предмет сходства
Я очень новичок в Python, но я подумал, что было бы забавно написать программу для сортировки всех моих загрузок, но у меня возникли небольшие проблемы с этим. Это отлично работает, если в моем пункте назначения есть только одно слово, но если в...
4571 просмотров
schedule 02.06.2022

нечеткая проверка дубликатов с использованием ошибки библиотеки дедупликации python
Я пытаюсь использовать библиотеку дедупликации python для выполнения нечеткой проверки дубликатов моих фиктивных данных, но я продолжаю получать эту ошибку: {'Vendor': {0: 'ABC', 1: 'ABC', 2: 'TIM'}, 'Doc Date': {0: '5/12/2019', 1: '5/13/2019',...
227 просмотров

Замена строк с помощью fuzzywuzzyR
У меня есть большой набор данных с названиями городов. Многие имена не соответствуют друг другу. Пример: vec = c("New York", "New York City", "new York CIty", "NY", "Berlin", "BERLIn", "BERLIN", "London", "LONDEN", "Lond", "LONDON") Я...
175 просмотров
schedule 12.07.2022

Pyspark levenshtein Join застрял на одной сцене
Я хочу выполнить соединение на основе расстояния Левенштейна. У меня есть 2 кадра данных: Данные : небольшой фрейм данных со 130 000 строк. Сирена : большой фрейм данных, представляющий таблицу stockunitelegale базы данных SIREN с 20...
160 просмотров

Нечеткий поиск Python
У меня есть большой образец текста, например: «Артериальное высокое кровяное давление может влиять на прогноз выживания пациента в результате осложнений. ТЕНСТАТЕН вводится в рамках профилактического лечения. Его (ее, ее) отчет (отношение)...
1130 просмотров
schedule 13.09.2022

Оценка короткой цитаты в тексте с помощью Python
Фон Используя Python, мне нужно оценить наличие цитаты, содержащей около 2-7 слов, более длинного текста. Цитата не обязательно должна точно соответствовать тексту, но похожие слова должны иметь такой же порядок . Например, для следующего...
146 просмотров
schedule 20.09.2022

Получить индекс совпадения python fuzzywuzzy
Я использую Python fuzzywuzzy для поиска совпадений в списке предложений: def getMatches(needle): return process.extract(needle, bookSentences, scorer=fuzz.token_sort_ratio, limit=3) Я пытаюсь распечатать совпадение и предложения...
2949 просмотров
schedule 22.05.2023

как распараллелить многие (нечеткие) строковые сравнения, используя применить в Pandas?
У меня следующая проблема У меня есть мастер фрейма данных, который содержит предложения, например master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflow is nice Для каждой...
9559 просмотров

Неожиданное несоответствие Python FuzzyWuzzy между результатами fuzz.ratio и process.extractOne
Я работаю над кодом, который использует нечеткое сопоставление строк для сопоставления фрейма данных пользовательских входов (фрейм данных списков строк после некоторой очистки) с конкретными интересующими словами. Я использую Python Pandas для...
808 просмотров

Оценка Python FuzzyWuzzy в строке в кадре данных Pandas
Я хочу перебрать кадр данных Pandas и получить оценку fuzz.ratio только для каждой пары строк (не для всех комбинаций). Мой фрейм данных выглядит так: Acct_Owner , Адрес , Адрес2 0, Name1, NaN, 33 Liberty Street 1, Name2, 330 N Wabash...
1305 просмотров
schedule 25.10.2022

TypeError: объект 'NoneType' не подлежит подписке при создании словаря pd.Dataframe
Я получаю следующую ошибку: TypeError: объект "NoneType" не может быть подписан В этом методе я пытаюсь выполнить сопоставление строк в двух файлах (тестовом и главном). Главный файл содержит правильно написанные названия продуктов, в то время...
745 просмотров
schedule 03.08.2023

Столбцы нечеткого соответствия другого фрейма данных
Фон У меня есть 2 фрейма данных, у которых нет общего ключа, с которым я могу их объединить. Оба df имеют столбец, содержащий «имя объекта». Один df содержит более 8000 объектов, а другой - около 2000 объектов. Пример данных :...
4540 просмотров

python fuzzywuzzy limit, как это работает?
Как именно лимит работает с модулем pythons fuzzywuzzy, что это значит? matches = process.extract(query, choices, limit=2, scorer=fuzz.partial_ratio)
1265 просмотров
schedule 11.06.2023