Question

我正在尝试为mako.co.il编写一个xbmc插件（我知道有一个xbmako，但我不能在linux上安装它）。当我尝试regexp剧集网站时，我没有得到任何结果。我尝试了这个网页，我可以使用a href=".*?">\n\t*<img

找到该链接

我认为它与换行符有关，我想到的解决方案是搜索a href=".*?">后跟任何内容的任何内容，然后是\t<img

修改
好的，所以我尝试做这个dom xml解析风格。我现在卡住了，因为在第101行我有一个（javascript？）部分带有for循环，解析器认为它是一个标签......

Answer 1

该网站使用CR-LF进行换行，但您的正则表达式假设它们是LF。您可以通过检查两种样式来解决这个问题：

a href=".*?">\r?\n\t*<img

Answer 2

使用DOM解析器

您不应手动解析HTML文件。相反，尝试使用DOM解析器。我建议使用minidom或ElementTree来获取常规Python代码。

XBMC

由于您提到XBMC，我建议您使用专为此目的而设计的Parsedom插件。

插件页面显示了如何列出所有a标签，或选择某些标签。