Scrapy缺少输出文件

时间:2018-04-22 21:39:32

标签: web-scraping scrapy steam

我使用https://github.com/prncc/steam-scraper scrapy和抓评论。如果我只是从几场比赛中刮掉了,那么得到的.jl文件就没问题了。但是当我试图刮掉很多游戏(所有这些游戏)时,我会丢失数据并重复前一行的数据。它似乎在一段时间内是一致的,并且在那段时间内是单个appid或user_id。我还不断收到一条Windows消息' Ding'每3-5分钟响一次,但不确定是否与错误相关。缺少数据通常是"推荐","文本" "日期&#34 ;.我目前正处于最后一步,我已经收集了txt中的所有产品网址链接(删除了没有评论的复制品和产品),并使用reviewspider评论所有这些链接

scrapy crawl reviews -o all_reviews.jl -a url_file=all_product_urls.txt -s JOBDIR=output/reviews

我也在git repo上提出了一个问题。

编辑:好的,所以我发现导致问题的是什么,似乎它正在抓非审查网站,如

2018-04-23 22:39:31 [scrapy.core.scraper] DEBUG:从< 200 https://steamcommunity.com/app/304050/ homecontent /?announcementsoffset = 413& lastNewsTime = 1441544426& userreviewsoffset = 61&安培; p = 141&安培; workshopitemspage = 141&安培; readytouseitemspage = 141&安培; mtxitemspage = 141&安培; itemspage = 141&安培; screenshotspage = 141&安培; videospage = 141&安培; artpage = 141&安培; allguidepage = 141&安培; webguidepage = 141&安培; integratedguidepage = 141&安培; discussionspage = 141&安培; numperpage = 5&安培; browsefilter =趋势&安培;的appid = 304050&安培; appHubSubSection = 1和L =英语&安培; filterLanguage =默认&安培; SEARCHTEXT =安培; forceanon = 1

研究如何防止刮刀刮擦不相关的网站或导致刮刀包含这些网站的原因

P.S。我避免在这里发布代码,因为它全部都在git repo中,我在这里发布的任何代码都可能与问题无关

0 个答案:

没有答案