我正在尝试理解/优化索引网站的逻辑。我是HTML / JS方面的新手,因此我正在学习。在为网站编制索引时,我会根据每个页面上的链接递归深入到网站。一个问题是页面具有重复的URL和文本,如页眉和页脚。对于URL,我有一个我已经处理过的URL列表。我能做些什么来识别每页重复的文字吗?我希望我的解释足够清楚。我目前有代码(在python中)获取该站点的有用URL列表。现在我试图索引这些页面的内容。是否有一个首选逻辑来识别或跳过这些页面上的重复文本(如页眉,页脚,其他模糊)。我正在使用BeautifulSoup +请求模块。
答案 0 :(得分:1)
我不太确定这是否是您所希望的,但可读性是一种流行的服务,只是解析页面中的“有用”内容。这是集成到ios的safari中的服务。
智能地获取页面有价值的内容,同时忽略页脚/标题/广告/等等内容
有python / ruby / php和其他语言的开源端口。