Парсер HTML для создания данных в формате GTFS

Существует транзитное агентство, которое не предоставляет данные о расписании транзита в формате GTFS. Я хотел бы сделать приложение для Android, которое может искать в нем, поэтому этот формат был бы очень полезен. У данных о расписании общественного транспорта есть веб-сайт, но, кажется, трудно отделить полезные вещи.

<td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=so&term=20141214"><img src="coming.gif" class="stopPoint" alt="A megállóhoz tartozó indulási időpontok megjelenítéséhez kérem, kattintson ide!" /></a></td>
<td class="b stopTime p0">2</td>
<td class="b stopPeakTime p0">2</td>
<td class="b stopName p0" colspan="1">Frankenburg úti aluljáró</td>
<td class="b stopTransfer p0"><img src="transfer.gif" class="iconTransfer" alt="Átszállási lehetőség a felsorolt autóbuszvonalakra" />&nbsp;&nbsp;<a href="line.cgi?id=10&dir=to&zero=1590&city=so&term=20141214">10</a>, <a href="line.cgi?id=10Y&dir=to&zero=1590&city=so&term=20141214">10Y</a></td>

Возможно, существующий парсер для этой цели был бы полезен. Есть рабочие?


person plaidshirt    schedule 30.09.2015    source источник


Ответы (1)


Спросите транспортное агентство, могут ли они каким-либо образом предоставить данные о расписании в более удобном формате. У них может быть какой-то другой формат данных, который будет лучше, чем тот, который у них есть в настоящее время.

В противном случае вам, вероятно, придется написать собственный скребок/парсер для этого. Мне нравится анализировать html с помощью библиотеки BeautifulSoup Python, но есть множество способов сделать это.

person Evan Siroky    schedule 12.10.2015