我需要在页面的DOM中检测一系列连续相同的元素。这些元素可以是div或li或span,也可以包含其他元素。这些元素的共同之处在于它们连续出现并具有相同的内部结构。
我想解决的问题是自动解析搜索结果。我试图找到的解决方案将生成这些元素的所有列表的列表(例如,页面可能包含带有搜索结果的列表和其他不相关的元素列表);这个解决方案必须足够通用,我不需要事先知道页面的结构。
谢谢。
答案 0 :(得分:0)
一般来说,问题太复杂,无法应用某种正则表达式。它可能意味着语境语法。
你必须自己实现一个算法才能解决这个问题。我记住的最简单的一个是:
答案 1 :(得分:0)
假设:您正在使用用于数据挖掘的python构建可配置的html网络爬虫
检索数据的步骤: