Я извлекаю текст судебных решений с веб-сайта и хочу сохранить разрывы строк (которые мне понадобятся позже для анализа текста). К сожалению, rvest's
html_text
удаляет разрывы строк и, например, два слова, изначально разделенные \ n, просто объединяются. Например, "GerichtAsylgerichtshof" на самом деле должно быть "Gericht \ nAsylgerichtshof".
library(rvest, quietly = T, warn.conflicts = F)
library(tidyverse, quietly = T, warn.conflicts = F)
test_url <- "https://www.ris.bka.gv.at//Dokumente/AsylGH/ASYLGHT_20131125_E5_408_113_1_2009_00/ASYLGHT_20131125_E5_408_113_1_2009_00.html"
test_url_parsed <- test_url %>%
xml2::read_html() %>%
rvest::html_nodes(".contentBlock")
test_url_parsed
#> {xml_nodeset (5)}
#> [1] <div class="contentBlock">\n<h1 class="Titel AlignJustify">Gericht</h1>\n ...
#> [2] <div class="contentBlock">\n<h1 class="Titel AlignJustify">Entscheidungsd ...
#> [3] <div class="contentBlock">\n<h1 class="Titel AlignJustify">Geschäftszahl< ...
#> [4] <div class="contentBlock">\n<h1 class="Titel AlignJustify">Spruch</h1>\n< ...
#> [5] <div class="contentBlock">\n<h1 class="Titel AlignJustify">Text</h1>\n<p ...
#linebreak gets lost
x <- test_url_parsed %>%
html_text()
x[1]
#> [1] "GerichtAsylgerichtshof"
Создано 14 мая 2020 г. пакетом REPEX (v0.3.0)
Я нашел несколько многообещающих способов подойти к этому вопросу, но, к сожалению, не смог ответить на свой конкретный вопрос. См., Например, здесь (заменяет html ‹br> с \ n) и обсуждение здесь на github.
Обратите внимание, что разрывы строк \ n появляются не только в заголовках (например, ‹h1>), но и во всем тексте (также‹ p>).
Большое спасибо.