Импорт txt с использованием pd.read_csv - недопустимая ошибка начального байта

Я пытаюсь прочитать текстовый файл с URL-адреса:

df = pd.read_csv(url, sep = "@#$", header = None, engine = 'python')

Но я получаю следующую ошибку:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9b in position 3706: invalid start byte

Я попробовал следующее на основе решений, которые я нашел в Интернете:

error_bad_lines = False
encoding = 'utf_8'
encoding = 'utf_16'

Я попробовал ответ по этой ссылке. Но я получаю следующую ошибку, когда пытаюсь это сделать:

TypeError: Expected object of type bytes or bytearray, got: <class 'http.client.HTTPResponse'>

Но ничего не работает. Любые другие идеи?

python pandas txt

Kaushik Karalgikar 16.03.2021 источник

comment

Откуда взялся URL? Вы используете Windows? 0x9B — это правая угловая скобка (›) в Windows CP1252, так что это вовсе не UTF-8. - Tim Roberts 17.03.2021

comment

@TimRoberts Я использую ноутбук с Windows, но запускаю код на EC2 (Ubuntu). Но в файле есть ›. Я проверил это сейчас - Kaushik Karalgikar 17.03.2021

comment

Попробуйте encoding='cp1252', как предложил @TimRoberts, и если вы все еще получаете сообщение об ошибке, включите весь свой код и полную трассировку. Мы не можем диагностировать только по строке исключения. См. этот пост, посвященный пониманию обратной трассировки python. - Michael Delgado 17.03.2021

comment

Если вы хотите обмануть, вы можете просто использовать редактор, чтобы заменить это знаком больше, но что вам действительно нужно сделать, так это прочитать это с помощью open('name',encoding='cp1252'). - Tim Roberts 17.03.2021

Импорт txt с использованием pd.read_csv - недопустимая ошибка начального байта

Вопросы по теме