应用错误收集

维基百科只是一个非常难的网站，不是从（所有html，没有Javascript或AJAX）中提取数据，而是从中自动提取。这是因为维基百科是免费的并且可以开放编辑，这导致了数百万种不同的页面结构。

虽然有一些方法，但它们的应用程度取决于每个用例。您可以通过指定XPath手动训练它，而不是使用我们的点击式训练。例如，如果数据始终在表中构建，则可以使用XPath： //表这将只扫描整个站点的任何表，并提取它。但是，这很可能也会产生不需要的表，因此您必须指定哪个表。例如，此站点上的表具有“wikitable”类。所以我们将其指定为： // table [@ class =“wikitable”]

然后你当然需要确保这同样适用于前锋的所有其他页面。数据很容易被人类识别，但是要使机器理解是一项艰巨的任务，需要在您正在寻找的数据之间找到一个共同的元素，并告诉机器人这个共同元素的东西是它应该提取的东西。

谢谢，
梅格

在import.io上解压缩时指定单独的行

1 个答案: