我正在寻找一个与jQuery或Cheerio具有类似API和用法的库。
我的用例是:解析包含javascript / css文件引用的任何脚本或链接标记的HTML文件。
答案 0 :(得分:10)
jQuery的Python等价物是pyQuery。在该链接下,您可以找到用法示例。您还可以访问PyQuery on GitHub。
答案 1 :(得分:5)
虽然pyQuery是jQuery等价物,根据您的用例判断但我认为像BeautifulSoup这样的东西可能更适合您想要做的事情。< / p>
以下摘自Beautiful Soup官方网站:
Beautiful Soup是一个专为快速周转而设计的Python库 屏幕抓取等项目。三个功能使它变得强大:
美丽的汤提供了一些简单的方法和Pythonic习语 导航,搜索和修改解析树:一个工具包 剖析文档并提取您需要的内容。它不需要 编写应用程序的代码很多
Beautiful Soup会自动将传入的文档转换为Unicode 和传出的文件到UTF-8。你不必考虑 编码,除非文档没有指定编码和 美丽的汤不能自动检测一个。然后你只需要指定 原始编码。
- 醇>
Beautiful Soup位于流行的Python解析器之上,如lxml和 html5lib,允许您尝试不同的解析策略或 贸易速度的灵活性。
美丽的汤解析你给它的任何东西,然后做树 遍历你的东西。您可以告诉它“查找所有链接”,或 “查找class externalLink的所有链接”或“查找所有链接” 其网址与“foo.com”相匹配,或者“查找大胆的表格标题” 文字,然后给我那个文字。“