当我只提供HTML和CSS源代码时,我正在寻找一种定义包含div的产品价格的通用方法。例如,在亚马逊上,产品价格总是包含在具有特定类别的div中(对于所有产品都是相同的,留给某些边缘情况)。 Ebay也是如此,除了div有不同的类。
一些可以注意到的一般模式: - 包含产品价格的div包含一个美元符号后跟一个数字 - div的文本大小比适合上述模式的其他div大 - 主要价格div中文本的颜色可能不同。
有没有一种有效的方法可以做到这一点,几乎适用于任何页面?最好是选择贝叶斯网络并根据上述模式选择包含产品价格概率最高的div?
答案 0 :(得分:0)
可以提供帮助的事情是: -
- css类,字体样式,字体大小,颜色与价格div在同一网站上大致相似。
- 正如您所提到的,同一网站中的所有网页都有相似的ID。
- 价值附近可能有美元或卢比符号。
- 此外,附近的div或父div可能会有类似"价格成本.."等
醇>
您可以为每个网站构建一个贝叶斯网络,该网络会记录上述所有功能,并评估div作为价格的概率。为您的网络提供每个网站的一些正面示例,并评估网络价值。
使用像nokogiri这样的工具进行html解析以提取div。