我对scrapy和python一般都是新手,但我真的很想学习,并且我付出了很多努力!我正在尝试抓取eb5info.com,选择每个区域中心,并复制每个区域中心的电话号码和电子邮件。但是,当我抓取它时,它通知我有0个网站被抓取。非常感谢任何帮助!
这是我的蜘蛛:
from scrapy.item import Item, Field
class Eb5Item(Item):
description = Field()
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from parser_module.items import Eb5Item
class Eb5Spider(CrawlSpider):
name = 'eb5'
allowed_domains = ["eb5info.com"]
start_urls = ["http://eb5info.com/regional-centers"]
rules = (Rule(SgmlLinkExtractor(allow=[r'regional-centers/*$']), callback='parse_item'),)
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li/a/@href')
items = []
for site in sites:
item = Eb5Item()
item['url'] = response.url
item['phone'] = site.select("()").extract()
items.append(item)
return (items)
这是我的项目文件:
from scrapy.item import Item, Field
class Eb5Item(Item):
# define the fields for your item here like:
name = Field()
email = Field()
name = Field()
description = Field()
phone = Field()
pass
非常感谢你!
答案 0 :(得分:1)
不可否认,使用Scrapy
对此有点太强大了。我个人会将requests
与lxml
或BeautifulSoup
结合使用。
无论如何,这是您的代码的工作版本。我没有打扰清理结果。这取决于你。
from scrapy.contrib.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy import Item, Field
from scrapy.http import Request
import urlparse
class Eb5Item(Item):
name = Field()
email = Field()
name = Field()
description = Field()
phone = Field()
url = Field()
class Eb5Spider(CrawlSpider):
name = 'eb5'
allowed_domains = ["eb5info.com"]
start_urls = ["http://eb5info.com/regional-centers/"]
def parse(self, response):
hxs = Selector(response)
sites = hxs.xpath('//ul/li/a/@href')
for site in sites:
yield Request(urlparse.urljoin("http://www.eb5info.com", site.extract()), callback=self.parse_item)
def parse_item(self, response):
hxs = Selector(response)
item = Eb5Item()
item['url'] = hxs.xpath("//dd/a/@href").extract()
# item[blah]...
print item['url']
return item
它的工作方式是parse
获取start_urls
的链接。由于只有一个页面(start_urls
中的相同网址)包含所有链接,因此无需使用Rule
来关注其他网页。
我们覆盖parse
以获取所述页面中的链接,然后使用Request
向parse_item
发出回调。这意味着,对于parse
找到的每个链接,我们会“进入”该链接并在其中执行parse_item
。
这个级别的刮痧在技术上很容易,并不真正有资格作为爬行,这意味着CrawlSpider
在这个级别上是过度的。
请注意,我使用的是最新版本的Scrapy,因此有些类和方法与您的不同。
答案 1 :(得分:0)
我对scrapy了解不多,所以我使用bs4这样做,希望你会发现它很有用
from bs4 import BeautifulSoup
import urllib2
def parse_link(url):
soup_link = BeautifulSoup(urllib.urlopen(url).read())
for x in soup_link.find_all('div','col-third'):
for y in x:
try:
if y.name == 'h3' or y.name == 'dl':
print y.get_text()
except:pass
soup = BeautifulSoup(urllib2.urlopen('http://eb5info.com/regional-centers').read())
for x in soup.find_all('li','va va_child'):
parse_link('http://eb5info.com'+x.a.get('href'))
这将为您提供所有链接,然后您可以调用传递URL的函数并解析它。 我会得到文本,我没有格式化它打印得很好,你现在可以做到,我希望你能得到这个概念。我在这里打印信息,你可以保存它,做任何你想做的事。