我认为这个话题已在本论坛的其他几个部分得到解决,但我已经彻底检查了所有这些,我似乎没有得到正确答案(!)。
我用scrapy制作了一个刮刀,它刮擦了多个网站的H3。结果是一个由多个列表组成的变量(即每个网站的列表)。但是,当我尝试通过pandas将此变量提取到csv时,我只在生成的csv中获得其中一个子列表。
任何帮助都会非常感激!!`(非常感谢提前!)
import scrapy
import pandas
from scrapy.selector import Selector
from funda.items import FundaItem
class MySpider(scrapy.Spider):
name = "funda"
allowed_domains = ["funda.nl"]
start_urls = ["http://www.funda.nl/koop/amsterdam/p%d/" % i for i in xrange(2)]
def parse(self, response):
hxs = Selector(response)
titles = hxs.xpath('//h3[@class="search-result-title"]/text()')
items = []
for t in titles:
item = FundaItem()
item["title"] = t
item = t.extract()
pain = item.strip()
items.append(pain)
print items
csvfile = "/Users/Mike/Desktop/outputFunda.csv"
df = pandas.DataFrame(items)
df.to_csv(csvfile, index=False, header=False)