Область:
В настоящее время я пытаюсь написать веб-парсер для этой конкретной страницы. У меня есть довольно сильный опыт веб-сканирования с использованием C#, но этот httplib
отбивает меня.
Проблема:
При попытке сделать запрос Http Get
для указанной выше страницы я получаю сообщение Moved Permanently, которое указывает на тот же самый URL. Я могу сделать запрос, используя библиотеку requests
, но я хочу заставить его работать с помощью httplib
, чтобы понять, что я делаю неправильно.
Пример кода:
Я совершенно новичок в Python, поэтому любой неправильный language guideline
или синтаксис является ошибкой C#.
import httplib
# Wrapper for a "HTTP GET" Request
class HttpClient(object):
def HttpGet(self, url, host):
connection = httplib.HTTPConnection(host)
connection.request('GET', url)
return connection.getresponse().read()
# Using "HttpClient" class
httpclient = httpClient()
# This is the full URL I need to make a get request for : https://420101.com/strain-database
httpResponseText = httpclient.HttpGet('www.420101.com','/strain-database')
print httpResponseText
Я действительно хочу, чтобы это работало, используя библиотеку httplib
вместо requests
или любой другой причудливой, потому что я чувствую, что здесь не хватает чего-то очень маленького.
www.420101.com
на420101.com
(без www). Если вы можете оставить это в своем первоначальном запросе, у вас нет проблем. Это приемлемый результат? - person Paul Rooney   schedule 12.05.2015httplib
не обрабатывает перенаправления автоматически, аrequests
делает. - person Malvolio   schedule 12.05.2015httplib
и «запачкать руки», но когда пришло время что-то сделать для производства, этоrequests
полностью. - person Paul Rooney   schedule 12.05.2015