Question

我是Apache Spark的新手，我希望能够读取XML文件并计算每个标题的单词数量。 XML文件如下所示：

<title>first title</title>
<words>there are seven words in this example</words>
<title>second title</title>
<words>there are more words here, ten words to be precise</words>

我使用Python编写Spark作业，但是当我输入

时

sc.textFile("file://...")

它使用换行符（\ n）作为分隔符自动拆分我的文件。我喜欢用几行分开，直到找到＆＃34; ＆LT;标题＆gt; ＆＃34;试。

我想要获得的结果将是：

first title: 7
second title: 10

我怎样才能做到这一点？

提前致谢

Answer 1

如果您使用XML文件，我建议您尝试spark-xml。

更改Apache Spark中的分隔符

1 个答案: