Я довольно новичок в Python. Я хочу создать собственный словарь, чтобы объединить длинный (1 миллион строк) список запутанных названий компаний в очищенные имена. Могу ли я использовать для этого пакет nltk?
Например: у меня есть приведенные ниже данные транзакции с именами продавцов. Я хочу создать собственный словарь, чтобы я мог классифицировать имена продавцов на очищенные.
- Американский орел#12455112 ---> Американский орел
- Американский орел ---> Американский орел
- //##7555Banana Rep ---> Banana Republic
- Нью-Йорк H&M ---> H&M
- H&M Чигаго ---> H&M