我正在寻找一种自动抓取解析整个网站(在线商店)的解决方案,并将所有产品保存为CSV中的产品名称和产品价格。
答案 0 :(得分:0)
从网站获取数据可能非常简单或完全相反。这取决于网站的制作方式。商店往往是一个复杂的网站,因此DOM(HTML结构)对于该网站来说大多是独一无二的。其他人尝试与该页面完全相同的东西是不太可能的。所以你必须编写代码并提取必要的piecs。
这将是我们的示例产品:http://www.thomann.de/gb/focusrite_scarlett_2i2.htm
HTML使用类来告诉CSS(用于样式)如何设计或呈现某个元素。您可以为您使用此行为,并按类查找包含价格的元素。在此示例中,它是.tr-prod-price
。
每个主要浏览器都有 Discover元素功能,它可用于查找屏幕上显示的元素的类。右键单击您的文本(价格或标题)按Q(仅限Firefox)。
现在,您已经接近解析数据了。现在是时候编写代码了。您可以使用Python,Java甚至JavaScript来举例说明。与Node.JS结合使用JavaScript可能非常简单,因为JS具有我们需要的内置方法。
您可能需要使用搜索引擎来查找产品的详细信息页面。 Google可以列出site:thomann.de/gb之类的所有结果。但当然谷歌没有提供一种简单的方法(API)来获取这些信息,如果你开始编写自己的解析器,我不确定法律后果。法律方面也需要为你的主要目的而言。