用lxml和美丽的汤

时间:2013-06-21 21:24:24

标签: html-parsing beautifulsoup lxml

我在使用美丽的汤制作lxml时遇到了麻烦。在osx 10.8.4上运行。要安装lxml,我做了端口安装py25-lxml,安装得很好。现在,当我尝试将lxml与Beautiful Soup一起使用时,我收到此错误:

Traceback (most recent call last):
  File "********.py", line 13, in <module>
    soup = BeautifulSoup(urllib2.urlopen(url).read(), 'lxml')
  File "/Users/********/********/bs4/__init__.py", line 155, in __init__
    % ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml.
Do you need to install a parser library?

不确定这是否是问题的一部分,但我无法导入lxml.etree

有没有其他人让lxml在osx上使用美味的汤?

另外,也许我可以尝试使用不同的html解析器。有没有人有其他解析器的建议?

1 个答案:

答案 0 :(得分:0)

来自lxml网站:

如果失败则尝试自己构建它 http://lxml.de/build.html#building-lxml-on-macos-x

这可能行不通,所以不要依赖它

否则还有其他解析器,例如lxml.html(应该使用lxml)和其他一些我不确定的解析器。