displaytweets = tweetsDf.select( "author", "civilEvents", "phraseList", "locations", "bodyText").orderBy("times")
pandas.set_option('display.max_colwidth', 500)
display.display(displaytweets.toPandas())
'bodyText'列包含推文...我希望能够查询我的数据帧以返回colomn包含主题标签的行。
我试过了:
displaytweets[displaytweets['bodyText'].str.contains("#")]
以及
hashTags = displaytweets.bodyText.str.contains("#")
但是我收到了这个错误:
<ipython-input-20-eb0d77b3103e> in <module>()
1 #displaytweets[displaytweets['bodyText'].str.contains("#")]
2 hashTags = displaytweets.bodyText.str.contains("#")
3 hashTags
TypeError:'Column'对象不可调用
答案 0 :(得分:0)
如果您将数据框转换为hashTags = displaytweets.where(displaytweets['bodyText'].str.contains('#')).dropna()
,则会为您提供所需内容:
with open("dataset.txt", 'r') as f:
for line in f:
print (line.split("\t"))[1]