在Hadoop中处理异构文档XML

时间:2013-05-22 20:37:38

标签: xml hadoop mahout

我使用hadoop 1.1.1。当我处理XML文档时,我使用 MAHOUT 中存在的XmlInputFormat。很明显,应该分配START_TAGEND_TAG。这种过程适用于这类数据(同质):

<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>

根据我的说法,我指定START_TAG=<book>END_TAG=</book>。 如果文件或数据采用以下形式(异构* ):

文件1:

<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>

AND 文件2:

<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>

如何分配START_TAGEND_TAG? 如何在hadoop中处理这种数据?

非常感谢

1 个答案:

答案 0 :(得分:0)

全局本体可用于动态定义不同文档类型使用的开始和结束标记。在处理异构系统时开发全局本体应该始终是这些系统集成时的优先事项。