Я пытаюсь прочитать Excel, в котором есть несколько пустых строк и столбцов. Процесс усложняется, так как перед заголовком также есть некоторые ненужные значения.
В настоящее время я жестко кодирую имя столбца для извлечения таблицы. У этого есть два недостатка: если столбец отсутствует в таблице, и что если имя столбца повторяется в значении столбца. Есть ли способ динамически написать программу, которая автоматически определяет заголовок таблицы и читает таблицу?
фрагмент кода:
raw_data = pd.read_excel('test_data1.xlsx','Sheet8',header=None)
data_duplicate = pd.DataFrame()
for row in range(raw_data.shape[0]):
for col in range(raw_data.shape[1]):
if raw_data.iloc[row,col] == 'Currency':
data_duplicate = raw_data.iloc[(row+1):].reset_index(drop=True)
data_duplicate.columns = list(raw_data.iloc[row])
break
data_duplicate.dropna(axis=1, how='all',inplace=True)
data_duplicate
Также не фиксировано количество строк банка + строк мусора перед заголовком.
pd.read_excel('test_data1.xlsx', 'Sheet8', skiprows=5)
. - person pavel   schedule 19.02.2020