Диагностика проблемы с прокси с помощью python

Поэтому я пытаюсь работать с python 2.7, чтобы делать разные вещи, требующие извлечения данных из Интернета. Я не был очень успешным, и я ищу помощи, чтобы диагностировать, что я делаю неправильно.

Во-первых, мне удалось заставить pip работать, определив прокси-сервер таким образом, pip install --proxy=http://username:[email protected]:8080 numpy. Следовательно, Python должен быть в состоянии пройти через это!

Однако, когда дело дошло до написания сценария .py, который мог бы сделать то же самое, у меня не было успеха. Сначала я попытался использовать следующий код с urllib2:

import urllib2

uri = "http://www.python.org"
http_proxy_server = "someproxyserver.com"
http_proxy_port = "8080"
http_proxy_realm = http_proxy_server
http_proxy_user = "username"
http_proxy_passwd = "password"

# Next line = "http://username:[email protected]:8080"
http_proxy_full_auth_string = "http://%s:%s@%s:%s" % (http_proxy_user,
                                                      http_proxy_passwd,
                                                      http_proxy_server,
                                                      http_proxy_port)

def open_url_no_proxy():
    urllib2.urlopen(uri)

    print "Apparent success without proxy server!"    

def open_url_installed_opener():
    proxy_handler = urllib2.ProxyHandler({"http": http_proxy_full_auth_string})

    opener = urllib2.build_opener(proxy_handler)
    urllib2.install_opener(opener)
    urllib2.urlopen(uri)

    print "Apparent success through proxy server!"

if __name__ == "__main__":
    open_url_no_proxy()
    open_url_installed_opener()

Однако я просто получаю эту ошибку:

URLError: <urlopen error [Errno 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond>

Затем я попробовал urllib3, так как это модуль, используемый pip для обработки прокси:

from urllib3 import ProxyManager, make_headers

# Establish the Authentication Settings
default_headers = make_headers(basic_auth='username:password')
http = ProxyManager("https://www.proxy.com:8080/", headers=default_headers)

# Now you can use `http` as you would a normal PoolManager
r = http.request('GET', 'https://www.python.org/')

# Check data is from destination
print(r.data)

Я получил эту ошибку:

raise MaxRetryError(_pool, url, error or ResponseError(cause)) MaxRetryError: HTTPSConnectionPool(host='www.python.org', port=443): Max retries exceeded with url: / (Caused by ProxyError('Cannot connect to proxy.', error('Tunnel connection failed: 407 Proxy Authorization Required',)))

Я был бы очень признателен за любую помощь в диагностике этой проблемы.


person Tom    schedule 02.07.2015    source источник
comment
Ваш прокси на https:// или http://? В примере с pip это http://, а в примере с urllib3 это https://.   -  person shazow    schedule 02.07.2015
comment
Если это не сработает, вы можете попробовать использовать запросы (построенные на urllib3, также используемые pip): docs.python-requests.org/en/latest/user/advanced/   -  person shazow    schedule 02.07.2015
comment
Да, я играл с http против https, на самом деле, когда я установил http с помощью urllib3, у него нет никаких ошибок, однако он возвращает страницу, которая сообщает мне, что прокси-сервер требует аутентификации.   -  person Tom    schedule 02.07.2015
comment
Я пробовал сценарий с запросом, и я получал аналогичные ошибки. Я начинаю думать, что это как-то связано с данными аутентификации.   -  person Tom    schedule 02.07.2015
comment
Может быть. Странно, что пипс работает. Вы уверены, что pip действительно использует прокси-сервер, а не игнорирует его каким-то образом? Вы можете использовать что-то вроде tcpdump/ngrep для мониторинга трафика и посмотреть, что он на самом деле делает. Например. stackoverflow .com/questions/9241391/   -  person shazow    schedule 02.07.2015
comment
Так что мне удалось заставить скрипт urllib3 работать на другой машине (в той же сети). Один раз сработало и больше никогда. Я попытался изменить URL-адрес, и он все еще не работает. Почему оно так себя ведет?   -  person Tom    schedule 06.07.2015
comment
Похоже проблема с прокси или сетью.   -  person shazow    schedule 06.07.2015


Ответы (1)


Решение моей проблемы состояло в том, чтобы использовать модуль запросов, см. Ветку ниже: ' модуль

mtt2p перечислите этот код, который работал у меня.

import requests
import time
class BaseCheck():
    def __init__(self, url):
        self.http_proxy  = "http://user:pw@proxy:8080"
        self.https_proxy = "http://user:pw@proxy:8080"
        self.ftp_proxy   = "http://user:pw@proxy:8080"
        self.proxyDict = {
                      "http"  : self.http_proxy,
                      "https" : self.https_proxy,
                      "ftp"   : self.ftp_proxy
                    }
        self.url = url
        def makearr(tsteps):
            global stemps
            global steps
            stemps = {}
            for step in tsteps:
                stemps[step] = { 'start': 0, 'end': 0 }
            steps = tsteps
        makearr(['init','check'])
        def starttime(typ = ""):
            for stemp in stemps:
                if typ == "":
                    stemps[stemp]['start'] = time.time()
                else:
                    stemps[stemp][typ] = time.time()
        starttime()
    def __str__(self):
        return str(self.url)
    def getrequests(self):
        g=requests.get(self.url,proxies=self.proxyDict)
        print g.status_code
        print g.content
        print self.url
        stemps['init']['end'] = time.time()
        #print stemps['init']['end'] - stemps['init']['start']
        x= stemps['init']['end'] - stemps['init']['start']
        print x


test=BaseCheck(url='http://google.com')
test.getrequests()
person Tom    schedule 06.07.2015