在python中废弃网页的核心文本

时间:2017-11-07 10:57:34

标签: python web-scraping phantomjs

是否有可用于获取网页核心文本的模块? 什么会删除标题/菜单/社交链接?

谢谢

1 个答案:

答案 0 :(得分:0)

我认为因网站而异。由于每个网站都有不同的结构,因此您无法想出标准的提取器。 要提取网页的特定部分,您可以按以下方式处理:

from urllib2 import urlopen
from scrapy.http import HtmlResponse

url = "some_website_you_want_to_crawl"
url_response = urlopen(url)
resp = HtmlResponse(url=url, body=url_response.read())
core_text = resp.xpath('xpath_to_core_text').extract()[0]