используйте HtmlTidy Managed для фрагмента html

я использую эту оболочку библиотеки для HtmlTidy в .net

https://github.com/markbeaton/TidyManaged

у него есть простой пример:

using System;
using TidyManaged;

public class Test
{
 public static void Main(string[] args)
 {
   using (Document doc = Document.FromString("<hTml><title>test</tootle>     <body>asd</body>"))
   {
  doc.ShowWarnings = false;
  doc.Quiet = true;
  doc.OutputXhtml = true;
  doc.CleanAndRepair();
  string parsed = doc.Save();
  Console.WriteLine(parsed);
  }
 }
}

Я хочу использовать библиотеку для фрагмента HTML, а не для полной страницы с тегами «html» и «body». Возможно ли это?

я в основном хочу проверить открывающие и закрывающие теги и т. д. и удалить теги без соответствующего открытия, любой другой отличный инструмент будет хорошим.


person arik    schedule 27.03.2014    source источник


Ответы (2)


я нашел ответ для этого, используя:

 doc.OutputBodyOnly = AutoBool.Yes;

но в результате я получаю gibrish символы вместо UTF-8 (я использую еврейские символы) и узнаю, что это открытая ошибка 3-летней давности.... https://github.com/markbeaton/TidyManaged/issues/2 это не решило проблему: doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8; doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;

@Оскар, я проверю вашу рекомендацию, спасибо

person arik    schedule 27.03.2014

Раньше у меня были хорошие результаты с Tidy .Net.

http://sourceforge.net/projects/tidynet/

person Oscar    schedule 27.03.2014