必须有一个非常简单的解决方案,我忽略了 - 我已将import.io设置为从维基百科页面error reporting中提取,我无法将字母表部分中的每个条目指定为单独的行提取时 - 训练时选择要在同一行上的所有内容,使其无法使用..任何想法?
答案 0 :(得分:2)
维基百科只是一个非常难的网站,不是从(所有html,没有Javascript或AJAX)中提取数据,而是从中自动提取。这是因为维基百科是免费的并且可以开放编辑,这导致了数百万种不同的页面结构。
虽然有一些方法,但它们的应用程度取决于每个用例。您可以通过指定XPath手动训练它,而不是使用我们的点击式训练。例如,如果数据始终在表中构建,则可以使用XPath: //表 这将只扫描整个站点的任何表,并提取它。但是,这很可能也会产生不需要的表,因此您必须指定哪个表。例如,此站点上的表具有“wikitable”类。所以我们将其指定为: // table [@ class =“wikitable”]
然后你当然需要确保这同样适用于前锋的所有其他页面。数据很容易被人类识别,但是要使机器理解是一项艰巨的任务,需要在您正在寻找的数据之间找到一个共同的元素,并告诉机器人这个共同元素的东西是它应该提取的东西。
谢谢,
梅格