Хорошо, поэтому я действительно новичок в запросах XPath, используемых в HTMLAgilityPack.
Итак, давайте рассмотрим эту страницу http://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you. Я хочу извлечь только содержимое страницы и ничего больше.
Для этого я сначала удаляю теги скриптов и стилей.
Document = new HtmlDocument();
Document.LoadHtml(page);
TempString = new StringBuilder();
foreach (HtmlNode style in Document.DocumentNode.Descendants("style").ToArray())
{
style.Remove();
}
foreach (HtmlNode script in Document.DocumentNode.Descendants("script").ToArray())
{
script.Remove();
}
После этого я пытаюсь использовать // text (), чтобы получить все текстовые узлы.
foreach (HtmlTextNode node in Document.DocumentNode.SelectNodes("//text()"))
{
TempString.AppendLine(node.InnerText);
}
Однако я получаю не только текст, но и множество символов / r / n.
Пожалуйста, мне нужно небольшое руководство по этому поводу.