Я преобразовываю HTML в красивый и аккуратный CSV. У меня есть файл, полный таблиц и с несколькими классами. У меня есть три типа таблиц, и их структура одинакова. Единственная разница заключается в содержимом элемента «th», который идет после интересующего меня элемента. Как я могу получить только содержимое таблиц с определенным текстом в «th» («text_that_I_want_to_get»)? Есть ли способ вставить класс с R внутри каждого типа таблицы?
Тип 1 таблицы
<tr>
<th class="array">text_that_I_want_to_get</th>
<td class="array">
<table>
<thead>
<tr>
<th class="string">name</th>
<th class="string">mean</th>
<th class="string">stdev</th>
</tr>
</thead>
<tbody>
Тип 2 таблицы
<tr>
<th class="array">text_that_I_want_to_get</th>
<td class="array">
<table>
<thead>
<tr>
<th class="string">name</th>
<th class="array">answers</th>
</tr>
</thead>
<tbody>
Тип 3 таблицы
<tr>
<th class="array">text_that_I_want_to_get</th>
<td class="array">
<table>
<thead>
<tr>
<th class="string">Reference</th>
</tr>
</thead>
<tbody>
sub(".*<th class="array">(.*)</th>.*","\\1", My_HTML_String)
- person Daniel O   schedule 16.06.2020