Question

我正在寻找关于解析以下日历的最佳方式的建议...... http://www.ucd.ie/events/calendar。我无法检测到正在使用的任何众所周知的框架，也无法以RSS / XML / JSON格式找到它。

我看到解析以下内容的唯一可能方法是解析原始HTML，这远非理想，特别是因为许多标记都是重复的。典型事件看起来像这样......

    <tr> 
            <td class="odd"> 
                <a href="http://www.ucd.ie/events/calendar?dt=d.en.66031&amp;f=week&amp;d=19/10/2010&amp;sd=Wednesday, 06 October 2010 - Wednesday, 01 December 2010&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null">Exchange Information Talk</a> 
                <p class="description">Information for students on spending a period of study abroad on exchange as part of their UCD degree</p> 
            </td> 
            <td class="odd">UCD International</td> 
            <td class="odd">A105 Newman Building</td> 
        </tr>

正如您所看到的，从HTML页面解析其中的许多内容并不会很有趣。基本上我想知道有没有人有任何关于我如何去做的建议？或者更聪明的做事方式？我真的很感激任何帮助，因为我陷入困境中无法找到任何替代方案。

感谢。

Answer 1

如果该网站没有提供其他服务，那么这个HTML，你就会解析它，但XPATH查询可以使你的生活更加愉快，只需简单的字符串匹配。

Answer 2

您可以使用xpath尝试，以获取您将要执行的链接

//td[@class='odd']/a/@href

但是每当他们改变hmtl输出时它都会中断

将HTML / Javascript解析为MySQL数据库

2 个答案: