我是Apache Spark的新手,我希望能够读取XML文件并计算每个标题的单词数量。 XML文件如下所示:
<title>first title</title>
<words>there are seven words in this example</words>
<title>second title</title>
<words>there are more words here, ten words to be precise</words>
我使用Python编写Spark作业,但是当我输入
时sc.textFile("file://...")
它使用换行符(\ n)作为分隔符自动拆分我的文件。我喜欢用几行分开,直到找到&#34; &LT;标题&gt; &#34;试。
我想要获得的结果将是:
first title: 7
second title: 10
我怎样才能做到这一点?
提前致谢