我已经完成了stackoverflow和互联网的所有答案,但没有任何作用。所以我有这个单词列表:
<div class="mainDiv">
<div class="addrLabel">Address</div>
<div class="addrValue">
<!-- no value at all -->
<span class="hrefClass">
<a href="#">next link</a>
</span>
</div>
<div class="clearfix"></div>
答案 0 :(得分:0)
查看上面的代码,您尝试将列表转换为DataFrame。一个好的StackOverflow链接是:https://stackoverflow.com/a/35009289/1100699。
说到这里,这是您的代码的工作版本:
from pyspark.sql import Row
# Create RDD
tweet_wordsList = ['tweet_text', 'RT', '@ochocinco:', 'I', 'beat', 'them', 'all', 'for', '10', 'straight', 'hours']
tweet_wordsRDD = sc.parallelize(tweet_wordsList)
# Load each word and create row object
wordRDD = tweet_wordsRDD.map(lambda l: l.split(","))
tweetsRDD = wordRDD.map(lambda t: Row(tweets=t[0]))
# Infer schema (using reflection)
tweetsDF = tweetsRDD.toDF()
# show data
tweetsDF.show()
HTH!