Быстро, просто и не требует настройки.

Скажем, у вас есть HTML:

<html>
   <body>
      <p>
         This is my body 
         <span>
            text
         </span>
         .
      </p>
      <div>
         <p>
            Then here's another body
               <span style="width=300px;">
                  STYLED
               </span>
         </p>
      </div>
   </body>
</html>

Ваш первый вопрос может быть таким: но почему? Честно говоря, я действительно не знаю, но это не первый раз, когда в Интернете можно найти что-то сумасшедшее.

Независимо от причины этого безумия, очевидно, есть некоторые неприятные моменты, в первую очередь 1) супербесполезное span, содержащее одно слово, которое должно принадлежать только тегу p, и 2) дополнительное div, которое не содержит ничего, кроме единственного p .

Чтобы исправить это, я предлагаю следующий сценарий. Это может работать не во всех случаях, но его достаточно легко настроить, и я надеюсь, что мои комментарии содержат достаточно контекста, чтобы это было полезно для большего количества случаев, чем только этот!

1. Создайте блокнот Google Colab

Google Colab — это замечательный инструмент, который позволяет вам запускать код в браузере, используя вычислительные ресурсы Google. Самое главное, он не требует буквально никакой настройки на вашем компьютере.

Для тех, кто не является разработчиком, это безумно полезно, потому что это означает, что вам не нужно погружаться в мир настройки среды разработки на вашем компьютере (что может быть полной головной болью). Для опытных программистов это безумно полезно, потому что просто экономит время и избавляет от головной боли!

Посетите http://colab.research.google.com и создайте новый блокнот.

2. Добавить код

Большую часть времени я заканчиваю тем, что просматриваю подобные статьи в поисках сути кода с необходимой мне информацией. Итак, для таких как я, пожалуйста :)

Комментарии делают это справедливо, я думаю, но шаг за шагом:

  1. Импортируйте пакет BeautifulSoup (помогает элегантно обрабатывать HTML)
  2. Установите функцию clean_html, которая фактически очищает этот HTML. Подробнее об этом через секунду.
  3. Разрешить пользователю вставлять HTML-код, который необходимо отредактировать, в приглашение ввода и преобразовывать его в «суп», например. проанализированы данные из HTML.
  4. Установите цикл, который спрашивает, какие теги вы хотели бы очистить несколько раз, пока вы все не закончите. Когда вы закончите, запишите окончательный, очищенный, преттифицированный HTML в файл.
  5. Вернемся к функции clean_html: она ищет все теги с типом, который вы указали в HTML. Если у тега нет атрибутов (например, стиля), то он фактически растворяется в родительском теге. Будьте осторожны с этим — это работает для приведенного мной примера с тегом div, содержащим один тег p, но если он содержит несколько тегов, это может изменить внешний вид. Сценарий можно настроить для учета этого и других случаев, но это просто предупреждение о том, что вы захотите перепроверить результаты.

3. Беги!

Как я упоминал ранее, Google Colab великолепен, потому что не требует никаких настроек. Все, что вам нужно сделать, это запустить его!

Вы можете видеть, что я успешно очистил фрагмент примера HTML из верхней части этой статьи, сохранив результат в текстовом файле.

Примечание: я разделил свой код на разные панели блокнота для организации, но вы можете хранить его в одной.

Дайте мне знать, было ли это полезно или если вы внесли изменения/улучшения!

Если вам понравилась эта статья, пожалуйста, рассмотрите возможность подписки или ознакомления с другими статьями!