所以,我的研究引导我进行python模块scrapy,我很乐意尝试,因为我已经知道了一些python。
我试过,但我得到的结果不够令人满意。
让我们解释一下我想要的东西:
我有兴趣从论坛分类部分检索帖子,检查是否有新消息已发布,如果标题中出现带有特定单词的新主题,则向我发送消息。
这是我的代码,ntspider.py:
from scrapy.http import Request
class MySpider(BaseSpider):
name = "LP195xSearch"
allowed_domains = ["www.mylespaul.com"]
start_urls = ["http://www.mylespaul.com/forums/member-classifieds/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select('//a[contains(@id,"thread_title")]/text()').extract()
t =[]
for title in titles:
t.append(title)
item = LP195xSearchItem()
item["title"] = title
yield item
for i in xrange(len(t)):
print repr(str(t[i])).center(20)
这只是检索和打印线程标题,现在我想告诉我是否找到了onw keywork。
非常欢迎任何帮助。
答案 0 :(得分:0)
你真的不需要scrapy,但是对于通知,我认为你需要创建如下内容:
keyword
并发送通知(您可以查看替代here或您选择的电子邮件)。我说你在这里并不需要scrapy,因为你只需要在页面上阅读纯文本,这可以在一个简单的脚本中使用requests
库或你选择的一个。