使用portia(scrapy)从网站提取Meta标签
我想使用portia从某些网站中提取元标记,但它没有显示头标记,它只从body标签开始
我只能从body标签中提取数据
答案 0 :(得分:7)
您需要在body
中注释元素,然后导航到要映射的head
中的元素。
html
元素。您将收到一条警告,指出您将丢失注释的任何映射属性,单击“确定”。head
元素。head
。+ Field
按钮创建一个新字段,然后将所需的属性值映射到目标字段。答案 1 :(得分:1)
你可以将它用于元名称:
meta_name = hxs.select('//meta/@name').extract()
这是元内容:
meta_content = hxs.select('//meta/@content').extract()
这是具有特定名称的元的内容,如描述:
meta = hxs.select('//meta[@name=\'description\']/@content').extract()