应用错误收集

解析网页以进行索引

时间：2013-03-21 16:12:47

标签： python html-parsing

我正在尝试理解/优化索引网站的逻辑。我是HTML / JS方面的新手，因此我正在学习。在为网站编制索引时，我会根据每个页面上的链接递归深入到网站。一个问题是页面具有重复的URL和文本，如页眉和页脚。对于URL，我有一个我已经处理过的URL列表。我能做些什么来识别每页重复的文字吗？我希望我的解释足够清楚。我目前有代码（在python中）获取该站点的有用URL列表。现在我试图索引这些页面的内容。是否有一个首选逻辑来识别或跳过这些页面上的重复文本（如页眉，页脚，其他模糊）。我正在使用BeautifulSoup +请求模块。

1 个答案:

答案 0 :(得分：1)

我不太确定这是否是您所希望的，但可读性是一种流行的服务，只是解析页面中的“有用”内容。这是集成到ios的safari中的服务。

智能地获取页面有价值的内容，同时忽略页脚/标题/广告/等等内容

有python / ruby / php和其他语言的开源端口。

https://github.com/buriy/python-readability