标签: python machine-learning nlp dialogflow data-extraction
当前,我已经使用Scrapy和bs4对单个网站的常见问题内容进行网络爬网。
但是,由于不同的网站以不同的格式设置其html结构,因此,每当我抓取新的常见问题页面时,都需要调整标签或xpath。
我发现Google的Dialogflow引入了“知识库”功能,用户只需要将常见问题解答网站解析到其系统中,他们就会生成常见问题解答列表。
现在,我正在考虑加快目标的方法:
我是否可以使用任何lib来加快过程? 或者,如果我可以从Dialogflow客户端下载生成的问答对。