Веб-скрапинг — один из мощных методов, используемых для сбора больших объемов данных из Интернета. Компании с качественными данными стремятся в современном мире, когда дело доходит до машинного обучения.

Возьмем сценарий. Вы решили создать лучшую в мире систему классификации отзывов о ресторанах. Вы собираете все отзывы из нескольких ресторанов и используете причудливый алгоритм глубокого обучения для классификации. Оказывается, ваш алгоритм классификации плохо работает на публике. Что пошло не так ?

Что ж, машинное обучение заключается в том, чтобы зафиксировать шаблон и обобщить его настолько хорошо, что невидимые данные также будут хорошо работать. Учитывая ситуацию, в которой вы находитесь, у вас есть эти варианты. Попробуйте GPU, внедрите новейшие методы машинного обучения, создайте ансамбль из множества моделей, пересмотрите разработку функций... или

Получите больше данных. Как бы тривиально это ни звучало, получение большего количества данных позволит любому алгоритму машинного обучения фиксировать больше шаблонов в данных и хорошо работать с невидимыми данными.

Я собираюсь рассказать о не очень известном пакете Python, который работает очень хорошо, его можно быстро получить и начать парсить.

[Гусь3](https://pypi.org/project/goose3/)

Давайте посмотрим шаги по установке и очистке:

pip3 install goose3 
from goose3 import Goose 
url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2' 
g = Goose() 
article = g.extract(url=url) 
article.title 
u'Occupy London loses eviction fight' article.cleaned_text[:150] (CNN) - Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi

Первоначально опубликовано на http://manishankert.blogspot.com 19 апреля 2020 г.