我正在寻找关于解析以下日历的最佳方式的建议...... http://www.ucd.ie/events/calendar。我无法检测到正在使用的任何众所周知的框架,也无法以RSS / XML / JSON格式找到它。
我看到解析以下内容的唯一可能方法是解析原始HTML,这远非理想,特别是因为许多标记都是重复的。典型事件看起来像这样......
<tr>
<td class="odd">
<a href="http://www.ucd.ie/events/calendar?dt=d.en.66031&f=week&d=19/10/2010&sd=Wednesday, 06 October 2010 - Wednesday, 01 December 2010&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null">Exchange Information Talk</a>
<p class="description">Information for students on spending a period of study abroad on exchange as part of their UCD degree</p>
</td>
<td class="odd">UCD International</td>
<td class="odd">A105 Newman Building</td>
</tr>
正如您所看到的,从HTML页面解析其中的许多内容并不会很有趣。基本上我想知道有没有人有任何关于我如何去做的建议?或者更聪明的做事方式?我真的很感激任何帮助,因为我陷入困境中无法找到任何替代方案。
感谢。
答案 0 :(得分:1)
如果该网站没有提供其他服务,那么这个HTML,你就会解析它,但XPATH查询可以使你的生活更加愉快,只需简单的字符串匹配。
答案 1 :(得分:0)
您可以使用xpath尝试,以获取您将要执行的链接
//td[@class='odd']/a/@href
但是每当他们改变hmtl输出时它都会中断