如何在此网站(Linux上)中搜索链接?

时间:2011-08-25 21:39:27

标签: python regex xbmc

我正在尝试为mako.co.il编写一个xbmc插件(我知道有一个xbmako,但我不能在linux上安装它)。当我尝试regexp剧集网站时,我没有得到任何结果。我尝试了这个网页,我可以使用a href=".*?">\n\t*<img

找到该链接

这是一个测试网站: http://www.mako.co.il/mako-vod-keshet/aharoni_cooks

以下是教程: http://wiki.xbmc.org/index.php?title=HOW-TO_write_plugins_for_XBMC

我认为它与换行符有关,我想到的解决方案是搜索a href=".*?">后跟任何内容的任何内容,然后是\t<img

修改
好的,所以我尝试做这个dom xml解析风格。我现在卡住了,因为在第101行我有一个(javascript?)部分带有for循环,解析器认为它是一个标签......

2 个答案:

答案 0 :(得分:0)

该网站使用CR-LF进行换行,但您的正则表达式假设它们是LF。您可以通过检查两种样式来解决这个问题:

a href=".*?">\r?\n\t*<img

答案 1 :(得分:0)

使用DOM解析器

您不应手动解析HTML文件。相反,尝试使用DOM解析器。我建议使用minidomElementTree来获取常规Python代码。

XBMC

由于您提到XBMC,我建议您使用专为此目的而设计的Parsedom插件。

插件页面显示了如何列出所有a标签,或选择某些标签。