У меня возникли проблемы с нацеливанием на «обычный текст» (имя автора) в этом фрагменте HTML.
У меня будет МНОГИЕ из них на странице... и я использую PHP-класс SIMPLE HTML DOM SCRAPER.
Находится здесь: http://sourceforge.net/projects/simplehtmldom/files/.
Это довольно приятно и довольно просто в использовании / понимании. Я просто немного застрял в том, как я могу настроить свой «обычный текст» (имя автора в этой демонстрации)
<tr>
<td style="vertical-align: top;">Some Time xx:xx am</td>
<td><a href="javascript:void(0)" onclick="window.open('link-path-url.ext'); return false;"><strong>Some Title</strong></a> <img alt="VIDEO" border="0" height="12" src="/images/template/video_icon.jpg" width="12" /><br />Author Name<em> - Institute Name</em></td>
</tr>
Мне нужно получить 4 значения из каждого «блока» следующим образом:
ссылка/путь - до сих пор правильно загружается
title - правильно захватывает до сих пор
имя автора – это имя автора, с которым у меня проблемы с таргетингом
название института - правильно схватил пока
Вот PHP, с которым я играл/тестировал до сих пор:
foreach($html->find('tbody td a') as $element){
echo 'LINK: ' . $parsedLink = substr($element->onclick, 13, -17) . '<br>';
$title = $element->find('strong',0);
echo 'TITLE: '. $title . '<br>';
$institute = $element->parent()->last_child();
echo 'INSTITUTE: '. $institute . '<br>';
//$author = $element->parent()->find('text');
$author = $element->parent()->last_child()->prev_sibling();
echo 'AUTHOR: '. $author . '<br>';
}
Я пробовал использовать внутренний текст, внешний текст, открытый текст, текстовые блоки и т. д.
но я НЕ могу настроить таргетинг на «обычный текст» (внутренний текст?), который находится перед элементом <em></em>
? (текст имени автора)
Как я могу нацелить/захватить это значение/элемент/текст?