我已经通过Scrapy从很多网站抓取了很多htmls(内容相似),而dom结构则不同。
例如,其中一个站点使用以下结构:
<div class="post">
<section class='content'>
Content1
</section>
<section class="panel">
</section>
</div>
<div class="post">
<section class='content'>
Conent2
</section>
<section class="panel">
</section>
</div>
我想提取数据Content
和Content2
。
虽然另一个网站可能使用这样的结构:
<article class="entry">
<section class='title'>
Content3
</section>
</article>
<article class="entry">
<section class='title'>
Conent4
</section>
</article>
我想提取数据Content3
和Content4
。
虽然最简单的解决方案是为所有站点逐个标记所需的数据xpath。那将是一项繁琐的工作。
所以我想知道结构是否可以自动提取。实际上,我只需要找到重复的根节点(上例中的div.post
和article.entry
),然后我可以用一些特定的规则提取数据。
这可能吗?
顺便说一句,我不太确定这种算法的名称,所以这篇文章的标签可能是错的,如果是真的,可以随意修改。答案 0 :(得分:3)
您必须至少知道一些能够制定确定性提取规则的常见模式。下面的解决方案非常原始,绝不是最佳解决方案,但它可能对您有所帮助:
# -*- coding: utf-8 -*-
import re
import bs4
from bs4 import element
import scrapy
class ExampleSpider(scrapy.Spider):
name = "example"
start_urls = ['http://quotes.toscrape.com/']
def parse(self, response):
min_occurs = 5
max_occurs = 1000
min_depth = 7
max_depth = 7
pattern = re.compile('^/html/body/.*/(span|div)$')
extract_content = lambda e: e.css('::text').extract_first()
#extract_content = lambda e: ' '.join(e.css('*::text').extract())
doc = bs4.BeautifulSoup(response.body, 'html.parser')
paths = {}
self._walk(doc, '', paths)
paths = self._filter(paths, pattern, min_depth, max_depth,
min_occurs, max_occurs)
for path in paths.keys():
for e in response.xpath(path):
yield {'content': extract_content(e)}
def _walk(self, doc, parent, paths):
for tag in doc.children:
if isinstance(tag, element.Tag):
path = parent + '/' + tag.name
paths[path] = paths.get(path, 0) + 1
self._walk(tag, path, paths)
def _filter(self, paths, pattern, min_depth, max_depth, min_occurs, max_occurs):
return dict((path, count) for path, count in paths.items()
if pattern.match(path) and
min_depth <= path.count('/') <= max_depth and
min_occurs <= count <= max_occurs)
它的工作原理如下:
为了构建路径字典,我只需使用BeautifulSoup
遍历文档并计算每个元素路径的出现次数。这可以在以后用于过滤任务,以便仅保留最多的路径。
接下来,我根据一些基本规则过滤出路径。要保留路径,必须:
min_occurs
次,最多发生max_occurs
次。min_depth
且最多为max_depth
。pattern
。其他规则可以类似的方式添加。
最后一部分循环遍历过滤后离开的路径,并使用extract_content
定义的一些常用逻辑从元素中提取内容。
如果您的网页相当简单并且可以推断出这些规则,那么它可能会有效。否则,你必须要考虑某种机器学习任务。