我正在尝试为mako.co.il编写一个xbmc插件(我知道有一个xbmako,但我不能在linux上安装它)。当我尝试regexp剧集网站时,我没有得到任何结果。我尝试了这个网页,我可以使用a href=".*?">\n\t*<img
这是一个测试网站: http://www.mako.co.il/mako-vod-keshet/aharoni_cooks
以下是教程: http://wiki.xbmc.org/index.php?title=HOW-TO_write_plugins_for_XBMC
我认为它与换行符有关,我想到的解决方案是搜索a href=".*?">
后跟任何内容的任何内容,然后是\t<img
修改
好的,所以我尝试做这个dom xml解析风格。我现在卡住了,因为在第101行我有一个(javascript?)部分带有for循环,解析器认为它是一个标签......
答案 0 :(得分:0)
该网站使用CR-LF进行换行,但您的正则表达式假设它们是LF。您可以通过检查两种样式来解决这个问题:
a href=".*?">\r?\n\t*<img
答案 1 :(得分:0)
使用DOM解析器
您不应手动解析HTML文件。相反,尝试使用DOM解析器。我建议使用minidom或ElementTree来获取常规Python代码。
XBMC
由于您提到XBMC,我建议您使用专为此目的而设计的Parsedom插件。
插件页面显示了如何列出所有a
标签,或选择某些标签。