应用错误收集

从不同域名的网站中提取常见问题解答内容

时间：2019-05-23 03:40:44

标签： python machine-learning nlp dialogflow data-extraction

当前，我已经使用Scrapy和bs4对单个网站的常见问题内容进行网络爬网。

但是，由于不同的网站以不同的格式设置其html结构，因此，每当我抓取新的常见问题页面时，都需要调整标签或xpath。

我发现Google的Dialogflow引入了“知识库”功能，用户只需要将常见问题解答网站解析到其系统中，他们就会生成常见问题解答列表。

现在，我正在考虑加快目标的方法：

来自不同网站的常见问题解答数据。

我是否可以使用任何lib来加快过程？或者，如果我可以从Dialogflow客户端下载生成的问答对。

0 个答案:

没有答案