Статьи по теме fuzzywuzzy [python, fuzzy-comparison, fuzzywuzzy, pandas, for-loop]

Вопросы по теме 'fuzzywuzzy'

Получение неправильной оценки из нечеткого wuzzy partial_ratio

Я новичок в Python и пытаюсь использовать нечеткое wuzzy для нечеткого сопоставления. Я считаю, что получаю неверные результаты за совпадения с помощью функции partial_ratio. Вот мой исследовательский код: >>>from fuzzywuzzy import...

810 просмотров

python fuzzy-comparison fuzzywuzzy

12.10.2021

Pandas: Как я могу повторить цикл for по двум различным фреймам данных?

Я пытаюсь рассчитать коэффициенты нечеткости для нескольких строк в двух фреймах данных: df1: id name 1 Ab Cd E 2 X.Y!Z 3 fgh I df2: name_2 abcde xyz Я хочу рассчитать коэффициент нечеткости между всеми значениями в...

5595 просмотров

python pandas for-loop fuzzywuzzy

20.11.2021

Многопроцессорность Python против списков для нечеткого

У меня есть два списка, которые можно сопоставить друг с другом. Мне нужно сопоставить каждое str1 слово с каждым списком из str2 слов. У меня есть список из 40 тысяч слов в str2 . Я хочу попробовать использовать multiprocessing , чтобы он...

172 просмотров

python multiprocessing fuzzywuzzy

04.10.2021

Нечеткое совпадение двух фреймов данных на основе столбца значений списка

У меня есть два фрейма данных, которые я пытаюсь объединить по совпадению со значениями в столбце. Соответствующие столбцы - header1 в Df1 и header2 в Df2 (значение - list). Ищу адаптированный подход. Df1:...

46 просмотров

pandas dataframe fuzzywuzzy

22.11.2021

Когда использовать функцию нечеткости для сравнения двух строк

Я изучаю fuzzywuzzy на Python. Я понимаю концепцию fuzz.ratio , fuzz.partial_ratio , fuzz.token_sort_ratio и fuzz.token_set_ratio . У меня вопрос, когда какую функцию использовать? Могу ли я сначала проверить длину двух строк, скажем,...

42097 просмотров

python string-comparison fuzzywuzzy

12.01.2022

Ошибка с FuzzyWuzzy: StringProcessor.replace_non_letters_non_numbers_with_whitespace (s)

Я не могу запустить следующую функцию: match, match_score = process.extractOne(score, pct_dict.keys()) Я получаю ошибку с пробелами, которую не могу решить. Есть идеи, что вызывает это? Что делать: если результат 15, он должен вернуть...

961 просмотров

python-3.x django fuzzywuzzy fuzzy-logic

02.03.2022

Как заменить строку, если она частично (до 90%) совпадает с искомой строкой в Python при работе с Python-docx?

Я хочу заменить текст в моем текстовом документе. Я могу заменить текстовые строки, которые полностью совпадают, но я хочу заменить их, если они будут соответствовать искомой строке на 90%. Я использую python-docx для работы с документами Word....

460 просмотров

python regex replace python-docx fuzzywuzzy

24.04.2022

Python Сравнение двух списков строк на предмет сходства

Я очень новичок в Python, но я подумал, что было бы забавно написать программу для сортировки всех моих загрузок, но у меня возникли небольшие проблемы с этим. Это отлично работает, если в моем пункте назначения есть только одно слово, но если в...

4571 просмотров

python list fuzzywuzzy

02.06.2022

нечеткая проверка дубликатов с использованием ошибки библиотеки дедупликации python

Я пытаюсь использовать библиотеку дедупликации python для выполнения нечеткой проверки дубликатов моих фиктивных данных, но я продолжаю получать эту ошибку: {'Vendor': {0: 'ABC', 1: 'ABC', 2: 'TIM'}, 'Doc Date': {0: '5/12/2019', 1: '5/13/2019',...

227 просмотров

python-3.x python fuzzywuzzy python-dedupe

18.06.2022

Замена строк с помощью fuzzywuzzyR

У меня есть большой набор данных с названиями городов. Многие имена не соответствуют друг другу. Пример: vec = c("New York", "New York City", "new York CIty", "NY", "Berlin", "BERLIn", "BERLIN", "London", "LONDEN", "Lond", "LONDON") Я...

175 просмотров

r fuzzywuzzy

12.07.2022

Pyspark levenshtein Join застрял на одной сцене

Я хочу выполнить соединение на основе расстояния Левенштейна. У меня есть 2 кадра данных: Данные : небольшой фрейм данных со 130 000 строк. Сирена : большой фрейм данных, представляющий таблицу stockunitelegale базы данных SIREN с 20...

160 просмотров

python pyspark apache-spark-sql fuzzywuzzy levenshtein-distance

13.08.2022

Нечеткий поиск Python

У меня есть большой образец текста, например: «Артериальное высокое кровяное давление может влиять на прогноз выживания пациента в результате осложнений. ТЕНСТАТЕН вводится в рамках профилактического лечения. Его (ее, ее) отчет (отношение)...

1130 просмотров

python regex nltk fuzzy-search fuzzywuzzy

13.09.2022

Оценка короткой цитаты в тексте с помощью Python

Фон Используя Python, мне нужно оценить наличие цитаты, содержащей около 2-7 слов, более длинного текста. Цитата не обязательно должна точно соответствовать тексту, но похожие слова должны иметь такой же порядок . Например, для следующего...

146 просмотров

python nlp algorithm fuzzywuzzy

20.09.2022

Получить индекс совпадения python fuzzywuzzy

Я использую Python fuzzywuzzy для поиска совпадений в списке предложений: def getMatches(needle): return process.extract(needle, bookSentences, scorer=fuzz.token_sort_ratio, limit=3) Я пытаюсь распечатать совпадение и предложения...

2949 просмотров

python fuzzy-search fuzzywuzzy

22.05.2023

как распараллелить многие (нечеткие) строковые сравнения, используя применить в Pandas?

У меня следующая проблема У меня есть мастер фрейма данных, который содержит предложения, например master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflow is nice Для каждой...

9559 просмотров

python pandas parallel-processing dask fuzzywuzzy

11.06.2023

Неожиданное несоответствие Python FuzzyWuzzy между результатами fuzz.ratio и process.extractOne

Я работаю над кодом, который использует нечеткое сопоставление строк для сопоставления фрейма данных пользовательских входов (фрейм данных списков строк после некоторой очистки) с конкретными интересующими словами. Я использую Python Pandas для...

808 просмотров

jupyter-notebook python string-matching fuzzy-search fuzzywuzzy

16.06.2023

Оценка Python FuzzyWuzzy в строке в кадре данных Pandas

Я хочу перебрать кадр данных Pandas и получить оценку fuzz.ratio только для каждой пары строк (не для всех комбинаций). Мой фрейм данных выглядит так: Acct_Owner , Адрес , Адрес2 0, Name1, NaN, 33 Liberty Street 1, Name2, 330 N Wabash...

1305 просмотров

python pandas fuzzywuzzy

25.10.2022

TypeError: объект 'NoneType' не подлежит подписке при создании словаря pd.Dataframe

Я получаю следующую ошибку: TypeError: объект "NoneType" не может быть подписан В этом методе я пытаюсь выполнить сопоставление строк в двух файлах (тестовом и главном). Главный файл содержит правильно написанные названия продуктов, в то время...

745 просмотров

python-3.x python fuzzywuzzy

03.08.2023

Столбцы нечеткого соответствия другого фрейма данных

Фон У меня есть 2 фрейма данных, у которых нет общего ключа, с которым я могу их объединить. Оба df имеют столбец, содержащий «имя объекта». Один df содержит более 8000 объектов, а другой - около 2000 объектов. Пример данных :...

4540 просмотров

python pandas fuzzy-comparison fuzzywuzzy fuzzy-logic

21.01.2023

python fuzzywuzzy limit, как это работает?

Как именно лимит работает с модулем pythons fuzzywuzzy, что это значит? matches = process.extract(query, choices, limit=2, scorer=fuzz.partial_ratio)

1265 просмотров

python-3.x fuzzy fuzzywuzzy fuzzy-logic

11.06.2023