数据挖掘程序

时间:2016-07-20 08:29:29

标签: xml parsing xpath

我很抱歉我的描述不好。让我清楚我的问题。我想从网页中的表中解析数据。所以,我目前正在使用名为“data miner”的谷歌浏览器应用程序。我尝试为表创建Xpath(参见下面的表格图示)。到目前为止我所做的是这样的:

  1. 对于表1,数据1://div[1]/table/tbody/tr/td[2]/table[1]/tbody/tr
  2. 对于表2,数据1://div[1]/table/tbody/tr/td[2]/table[2]/tbody/tr/td[2]/table/tbody/tr
  3. 对于表3,数据1://div[1]/table/tbody/tr/td[2]/table[3]/tbody/tr/td/table/tbody/tr
  4. 这些3个代码仅在我与|连接时才适用于一个表。合并后的代码是这样的:
    //div[1]/table/tbody/tr/td[2]/table[1]/tbody/tr | //div[1]/table/tbody/tr/td[2]/table[2]/tbody/tr/td[2]/table/tbody/tr | //div[1]/table/tbody/tr/td[2]/table[3]/tbody/tr/td/table/tbody/tr

    输出顺序变为:
    表1,数据1 表2,数据1 表3,数据1

    但是,如果我通过将div[1]更改为div来尝试将其应用于所有数据,则输出顺序将变为:
    表1,数据1 表1,数据2


    表1,数据10
    表2,数据1 表2,数据2


    表2,数据10
    表3,数据1
    表3,数据2


    表3,数据10

    我真正需要的是这样的:
    表1,数据1 表2,数据1 表3,数据1
    表1,数据2
    表2,数据2
    表3,数据2


    表1,数据10
    表2,数据10
    表3,数据10

    基本上,div[1]代表数据1,依此类推。 table[1]table[2]table[3]代表特定数据中的表1,2和3。有人可以给我建议如何组合这3个代码,以便它可以正常工作所有数据?或者您还有其他解决方案吗?

    表格插图: Table model

0 个答案:

没有答案