Я использую JTidy (java-порт библиотеки HTML Tidy) для очистки некоторых существующих сайтов. Когда я использовал свою конфигурацию JTidy, она оказалась очень строгой и в итоге обрезала нижнюю часть страницы (плохая разметка).
Когда я запускаю ту же разметку только с помощью инструмента проверки HTML w3c, он очищает ее, но более разумно переписывает; вместо того, чтобы обрезать теги, он, кажется, разумно угадывает, где был отсутствующий тег, и соответствующим образом обновляет структуру.
Кто-нибудь знает, какую конфигурацию HTML-Tidy использует w3c?
Моя конфигурация jtidy выглядит следующим образом:
Tidy tidy = new Tidy();
tidy.setTidyMark(false);
tidy.setXHTML(true);
tidy.setXmlOut(false);
tidy.setNumEntities(true);
tidy.setSpaces(2);
tidy.setWraplen(2000);
tidy.setUpperCaseTags(false);
tidy.setUpperCaseAttrs(false);
tidy.setQuiet(false);
tidy.setMakeClean(true);
tidy.setShowWarnings(true);
tidy.setBreakBeforeBR(true);
tidy.setHideComments(true);