Склеивание не удается из-за ошибки тайм-аута подключения

У меня есть задание Glue ETL, которое считывает данные из каталога и записывает их в s3. Как только это будет сделано, необходимо запустить поисковый робот для обновления данных в Athena.

Итак, я использую метод glue_client.start_crawler (Name = 'crawler_name') для запуска поискового робота. Но всякий раз, когда я пытался запустить краулер из задания ETL Glue, он терпел неудачу со следующей ошибкой

ConnectTimeoutError: Connect timeout on endpoint URL: "https://glue.eu-central-1.amazonaws.com/"

person Tula    schedule 03.08.2020    source источник
comment
Вы работаете в частной подсети?   -  person Lamanus    schedule 03.08.2020


Ответы (1)


Когда вы запускаете задание Glue внутри VPC, подключив соединение, трафик будет находиться только в сеть AWS и без выхода в общедоступный Интернет.

Это причина, по которой вы не можете подключиться к вызову API поискового робота Glue boto3. Для этого вам необходимо создать / добавить конечную точку Glue VPC в VPC, а запрос на запуск поискового робота должен быть таким, как показано ниже, включая endpoint_url.

import boto3
glue = boto3.client(service_name='glue', region_name='eu-central-1',
              endpoint_url='https://glue.eu-central-1.amazonaws.com')
glue.start_crawler(Name='crawler_name') 
person Prabhakar Reddy    schedule 04.08.2020
comment
Отлично, теперь он может запускать краулер, и он создает таблицы в Афине, но он добавляет какой-то странный суффикс в мою таблицу (какой-то буквенно-цифровой код). Есть идеи, почему? - person Tula; 04.08.2020
comment
Можете ли вы опубликовать несколько названий таблиц? Также исходные файлы, созданные заданием Glue ETL? - person Prabhakar Reddy; 04.08.2020