Для следующего фрагмента HTML-кода я использовал BeautifulSoup для захвата табличной информации:
<table>
<tr>
<td><b>Code</b></td>
<td><b>Display</b></td>
</tr>
<tr>
<td>min</td>
<td>Minute</td><td/>
</tr>
<tr>
<td>happy </td>
<td>Hour</td><td/>
</tr>
<tr>
<td>daily </td>
<td>Day</td><td/>
</tr>
Это мой код:
comments = [td.get_text() for td in table.findAll("td")]
Comments=[data.encode('utf-8') for data in comments]
Как видите, у этой таблицы есть два заголовка: «код и отображение» и некоторые значения в строках. Ожидаемый результат моего кода должен быть [код, дисплей, мин, минуты, счастливый, час, ежедневно, день]
но это выход:
['Code', 'Display', 'min', 'Minute', '', 'happy ',
'Hour', '', 'daily ', 'Day', '']
Вывод имеет '' в 5-м, 8-м и 11-м индексах в комментариях, которые не определены в этой таблице. Я думаю, что это может быть из-за </td><td/>
. Как я могу изменить код, чтобы он не захватывал u'' на выходе?