从不同域名的网站中提取常见问题解答内容

时间:2019-05-23 03:40:44

标签: python machine-learning nlp dialogflow data-extraction

当前,我已经使用Scrapy和bs4对单个网站的常见问题内容进行网络爬网。

但是,由于不同的网站以不同的格式设置其html结构,因此,每当我抓取新的常见问题页面时,都需要调整标签或xpath。

我发现Google的Dialogflow引入了“知识库”功能,用户只需要将常见问题解答网站解析到其系统中,他们就会生成常见问题解答列表。

现在,我正在考虑加快目标的方法:

  • 来自不同网站的常见问题解答数据。

我是否可以使用任何lib来加快过程? 或者,如果我可以从Dialogflow客户端下载生成的问答对。

0 个答案:

没有答案