XML:提取节点内的数据并计算终端

时间:2015-11-25 18:51:37

标签: xml

我有一个非常大的XML文件,我需要对其进行一些数据分析。

我无法在任何XML解析器或Excel中打开该文件,因为它太大了。 我想获取<name>内的每个值,然后将它们写入文件。

我可以在Linux中使用终端吗?我也可以使用Cygwin访问Windows机器。

理想情况下,我的最终目标是拥有一个文件,显示此节点中的每个唯一条目,然后给我这个唯一字词的计数。(它发生了多少时间)

例: 伦敦:500 纽约:600 西雅图:500

以下是我的一个节点的示例。

<product id="">
<city>
    <id>abilene</id>
    <name>City Name</name>
    <lat>32.445587</lat>
    <lng>-99.755331</lng>
  </city>
</product>

1 个答案:

答案 0 :(得分:0)

对于任何关注此事的人,我的解决方案是使用GREP从文件中获取数据。在获取相关信息之后,文件足够小以执行所需的分析。当GUI应用程序无法处理文件大小时,这是一个关于使用终端的好教程。

https://www.codecademy.com/en/courses/learn-the-command-line/