Как правильно обрабатывать несколько двоичных файлов в python?

В настоящее время я работаю над многопоточным загрузчиком с помощью модуля PycURL. Я загружаю части файлов и потом их объединяю.

Части скачиваются отдельно из нескольких потоков, записываются во временные файлы в бинарном режиме, но когда я их сливаю в один файл(сливаются в правильном порядке) контрольные суммы не совпадают.

Это происходит только в Linux env. Тот же скрипт безупречно работает в среде Windows.

Это код (часть скрипта), который объединяет файлы:

with open(filename,'wb') as outfile:
    print('Merging temp files ...')
    for tmpfile in self.tempfile_arr:
        with open(tmpfile, 'rb') as infile:
            shutil.copyfileobj(infile, outfile)
    print('Done!')

Я также пробовал метод write(), но он приводит к той же проблеме, и для больших файлов требуется много памяти.

Если я вручную cat файлы частей в один файл в linux, то контрольная сумма файла совпадает, проблема заключается в слиянии файлов python.

РЕДАКТИРОВАТЬ:
Вот файлы и контрольные суммы (sha256), которые я использовал для воспроизведения проблемы:

Original file
- HASH: 158575ed12e705a624c3134ffe3138987c64d6a7298c5a81794ccf6866efd488
file merged by script
- HASH: c3e5a0404da480f36d37b65053732abe6d19034f60c3004a908b88d459db7d87
файл объединен вручную с помощью cat
- HASH: 158575ed12e705a624c3134ffe3138987c64d6a7298c5a81794ccf6866efd488
- Используемая команда:
```
for i in /tmp/pycurl_*_{0..7}; do cat $i >> manually_merged.tar.gz; done
```
Файлы частей — нумеруются в конце от 0 до 7.

python pycurl

Saumyakanta Sahoo 28.12.2019 источник

comment

Я думаю, что ваш режим open не подходит (wb). На основе stackoverflow.com/a/4388244/3727050 вам нужно ab (или r+b и seek) - urban 28.12.2019

comment

Вам необходимо предоставить минимальный воспроизводимый пример, включая несколько примеров временных файлов. Я думаю, вы сможете воспроизвести проблему с некоторыми временными файлами размером всего в несколько байтов каждый. Надеюсь, размер буфера не является частью проблемы. Также двоичный режим, вероятно, не важен, поэтому вы можете использовать простые текстовые файлы. - wjandrea 28.12.2019

comment

FWIW К сожалению, мне не удалось воспроизвести проблему с двумя очень короткими текстовыми файлами в Linux. - wjandrea 28.12.2019

comment

На самом деле pycurl требует двоичного режима для записи данных. - Saumyakanta Sahoo 28.12.2019

comment

Хорошо, файлы помогают, но ваш код все еще неполный: filename, self.tempfile_arr и shutil не определены - wjandrea 28.12.2019

comment

Это не весь скрипт, это часть, которая объединяет файлы - Saumyakanta Sahoo 28.12.2019

comment

Здесь слишком много вещей, которые могут пойти не так, что ваш пример не может исключить: неполные загрузки, tempfile_arr не в том порядке, в котором вы утверждаете, и т. д. - chepner 13.01.2020

comment

почему вы используете Shutil.copyfileobj`вместо чтения и записи (outfile.write(infile.read()))? - 576i 13.01.2020

comment

@chepner Я проверяю HTTP-код возврата после загрузки части, как я уже упоминал, точный скрипт работает безупречно в Windows, но повреждает файл в Linux. - Saumyakanta Sahoo 13.01.2020

comment

@ 576i - функция write() использует много памяти для больших файлов, хотя я пробовал использовать функцию write(), у меня возникла та же проблема. - Saumyakanta Sahoo 13.01.2020

comment

@ 576i В основном это то, что делает copyfileobj, только он использует буфер фиксированного размера, чтобы избежать одновременного чтения всего исходного файла в память. Это просто цикл повторяющихся x = src.read(SIZE); dst.write(x) вызовов. - chepner 13.01.2020

comment

Ваши два файла имеют одинаковое содержимое, просто в другом порядке. Другими словами, вы не объединили фрагменты в правильном порядке. - jasonharper 13.01.2020

comment

@jasonharper да, я тщательно проверил, и действительно, скрипт размещал части в другом порядке. Но почему-то он работал в Windows каждый раз. - Saumyakanta Sahoo 17.01.2020

comment

Я не могу без ошибок извлечь файл .txt из предоставленного автоматически_merged.tar.gz. Пожалуйста, перезагрузите. - Ente 05.02.2020

comment

@jasonharper спасибо!! Я решил это, порядок был проблемой - Saumyakanta Sahoo 07.12.2020

comment

Я использую @urban , я подозреваю, что версия curl для win/linux или ваша библиотека автоматически преобразовывают конец строки или порядок байтов, так что да, выберите какой-нибудь меньший, и что, если файлы не были объединены или затронуты, были ли они одинаковыми контрольная сумма, а в худшем случае вы всегда можете сбросить двоичный файл, чтобы увидеть, что происходит, говорит xxd или hexeditor - Jack Wu 01.06.2021

Ответы (1)

arrow_upward
0
arrow_downward

Минимально воспроизводимый случай был бы удобен, но я подозреваю, что универсальные новые строки быть проблемой: по умолчанию, если ваши файлы представляют собой текст в стиле Windows (новые строки - \r\n), они будут переведены в новые строки в стиле Unix (\n) при чтении. И тогда эти новые строки в стиле unix будут записаны обратно в выходной файл, а не в стиле Windows, как вы ожидали. Это объяснило бы расхождение между python и cat (что вообще не переводило бы).

Попробуйте запустить скрипт, передавая newline='' (пустую строку) в open.

Masklinn 13.01.2020

Как правильно обрабатывать несколько двоичных файлов в python?

Ответы (1)

Вопросы по теме