更改Apache Spark中的分隔符

时间:2017-09-26 13:24:19

标签: python apache-spark bigdata

我是Apache Spark的新手,我希望能够读取XML文件并计算每个标题的单词数量。 XML文件如下所示:

<title>first title</title>
<words>there are seven words in this example</words>
<title>second title</title>
<words>there are more words here, ten words to be precise</words>

我使用Python编写Spark作业,但是当我输入

sc.textFile("file://...")

它使用换行符(\ n)作为分隔符自动拆分我的文件。我喜欢用几行分开,直到找到&#34; &LT;标题&gt; &#34;试。

我想要获得的结果将是:

first title: 7
second title: 10

我怎样才能做到这一点?

提前致谢

1 个答案:

答案 0 :(得分:0)

如果您使用XML文件,我建议您尝试spark-xml