如何从多个Web配置器中自动提取特定信息

时间:2018-09-10 12:32:40

标签: python nlp web-crawler data-science

我目前正在从事一个项目,该项目需要从网站或在线配置器工具(例如汽车配置器)提取非常具体的文本元素

我以前没有(自动)数据收集方面的经验,但想学习。由于以下问题,我目前正在努力如何处理我的项目:网站和配置器工具往往非常异构,这需要我设置每个网站最多只能安装一个搜寻器,从而无法实现自动化流程的目的。


我理想的过程如下:

输入:网站和网络配置器
输出:Excel文件,其特定信息为列

示例:
输入BMW Car Configurator
输出:带有以下列的Excel文件:车型/配置ID,基本价格,额外a,价格额外a,额外b,价格额外b,...


到目前为止,我一直在研究通过Python中的Web搜寻器来解决它,但是如上所述,这意味着要设置多个搜寻器,这违背了自动化过程的目的。另外,我可以使用这些配置工具的PDF文件(例如价格表),但是我没有进一步研究从PDF文件提取数据。

我将不胜感激任何建议或见解,可以帮助我找到想要实现的目标的正确方法!

0 个答案:

没有答案