Как распаковать большой zip-файл в Google Colab Pro?

невозможно распаковать данные размером 30 ГБ в папке из записной книжки Colab. Я загрузил заархивированный набор данных размером 30 ГБ с помощью вызова api kaggle. Но когда я пытаюсь разархивировать набор данных с помощью! Unzip destination_folder_name -d source_name, он выдавал ошибку или неправильное смещение почтового индекса. Папка состоит из изображений и масок в формате .png. Внутри zip-файла есть 2 папки, содержащие маски и изображения, каждая из которых составляет 256 тыс. образцов. Ниже я прикрепляю изображение ошибки

введите описание изображения здесь

какую команду попробовать для распаковки этого набора данных в Google Colab Pro?

ссылка на набор данных: https://www.kaggle.com/raghaw/panda-dataset-medium-25-256-256


person Mobassir    schedule 15.07.2020    source источник
comment
Похоже, архив поврежден.   -  person tripleee    schedule 15.07.2020
comment
@tripleee нет, он не поврежден, мы также загрузили и проверили данные на локальном компьютере   -  person Mobassir    schedule 15.07.2020


Ответы (1)


Скопируйте файл с Диска на локальный диск перед его разархивированием.

В результате ввод-вывод будет намного быстрее и надежнее.

Причина этого в том, что производительность DriveFS FUSE ограничена лимитом скорости для каждого файла. Для небольших файлов, типичных для распаковки большого архива, этот предел скорости будет доминировать над производительностью ввода-вывода и вызывать загадочные ошибки, подобные той, которую вы наблюдаете.

person Bob Smith    schedule 15.07.2020
comment
что вы имеете в виду под копированием файла с диска на локальный диск? Я могу отключить диск и получить zip-файл в Google Colab. Вы хотите, чтобы я скопировал этот файл с диска Google в рабочую среду Google Colab? какую команду вы хотите, чтобы я использовал тогда? ! cp? - person Mobassir; 15.07.2020
comment
Вместо !unzip ... прямо на Диске сначала скопируйте в /content, например: !cp /content/.../panda-dataset-medium-25-256-256.zip /content && !unzip /content/panda-dataset-medium-25-256-256.zip - person Bob Smith; 15.07.2020
comment
Я пробовал это: os.listdir ('../ content / drive / My Drive / New_Data') и получил это: ['panda-dataset-medium-25-256-256.zip'], затем эту команду:! cp ' / content / drive / My Drive / New_Data / panda-dataset-medium-25-256-256.zip '/ content &&! unzip /content/panda-dataset-medium-25-256-256.zip и получил эту ошибку: cp: ошибка чтения '/ content / drive / My Drive / New_Data / panda-dataset-medium-25-256-256.zip': ошибка ввода / вывода - person Mobassir; 15.07.2020
comment
Я подозреваю, что вы достигли дневной квоты передачи этого файла на Диск. Можете ли вы попробовать продублировать файл в пользовательском интерфейсе Диска и скопировать в Colab путь к дублированному файлу .zip на Диске? - person Bob Smith; 15.07.2020
comment
создал копию с именем: Копия panda-dataset-medium-25-256-256.zip, а затем! cp '/ content / drive / My Drive / New_Data / Copy of panda-dataset-medium-25-256-256.zip '/ content &&! unzip /content/panda-dataset-medium-25-256-256.zip снова получил ту же ошибку - person Mobassir; 15.07.2020
comment
Насколько велик архив .zip? - person Bob Smith; 15.07.2020
comment
30 гб - размер файла - person Mobassir; 16.07.2020
comment
Вы нашли решение? Я столкнулся с той же проблемой. - person yudhiesh; 13.08.2020