Я пытаюсь очистить данные со страниц, защищенных аутентификацией shibboleth. У меня возникли проблемы с правильной работой cURL и webisoget. Итак, я пытаюсь использовать wget, потому что думал, что могу передать свой сертификат и получить нужные страницы. Однако у меня также возникают проблемы с этим, и мне было трудно найти документацию по моей проблеме.
Вот команда wget, которую я пытаюсь выполнить:
>wget --no-check-certificate --certificate=www.washington.edu.crt https://www.washington.edu/cec/i/INFO200A2821.html
Вот что возвращает эта команда:
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:/progra~1/wget/etc/wgetrc --2011-05-28 00:32:37-- https://www.washington.edu/cec/i/INFO200A2821.html Resolving www.washington.edu... 140.142.16.69, 140.142.11.167, 140.142.15.8 Connecting to www.washington.edu|140.142.16.69|:443... connected. WARNING: cannot verify www.washington.edu's certificate, issued by `/C=ZA/ST=Wes tern Cape/L=Cape Town/O=Thawte Consulting cc/OU=Certification Services Division/ CN=Thawte Premium Server CA/[email protected]': Self-signed certificate encountered. HTTP request sent, awaiting response... 200 OK Length: 807 [text/html] Saving to: `INFO200A2821.html.2' 100%[=====================================> ] 807 --.-K/s in 0s 2011-05-28 00:32:38 (6.78 MB/s) - `INFO200A2821.html.2' saved [807/807]
Однако, несмотря на то, что я получаю страницу, она не содержит информации, которую я надеюсь очистить. Возвращаемая страница содержит форму, которая автоматически отправляет форму при загрузке. Форма содержит скрытые поля ввода для pubcookie и relay_url.
Я могу получить доступ к странице при входе в систему с моими учетными данными. Однако я изо всех сил пытаюсь автоматизировать это и собирать информацию.