У нас есть файл, который имеет следующий тип:
1- Sam, Joshua , "52 DD dr,
Lake Hiawatha" , New Jersey, 07034
2- Ruchi,kumari,SNN Raj serenity,Bengaluru, 560068
Строка 1 разделена на 2 строки во внешней таблице, при этом остальные столбцы являются нулевыми в 1-й строке, а 2-я строка содержит остальные данные.
Нужна помощь в том, как лучше всего загрузить в один столбец, чтобы решить эту проблему. Просмотрел пару решений в сети, но не понял.
Пробовал следующие варианты:
1) Использовал Regex Serde
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = '"*([^"]*)"*,"*([^"]*)"*'
)
но это не сработало
2) CSVInputFormat из github https://github.com/mvallebr/CSVInputFormat
Но не умеет им пользоваться.