我想从数据框中选择一个关键字

时间:2016-12-20 03:49:22

标签: python pandas select dataframe filter

displaytweets = tweetsDf.select( "author", "civilEvents", "phraseList",  "locations", "bodyText").orderBy("times")
pandas.set_option('display.max_colwidth', 500) 
display.display(displaytweets.toPandas())

'bodyText'列包含推文...我希望能够查询我的数据帧以返回colomn包含主题标签的行。

我试过了:

displaytweets[displaytweets['bodyText'].str.contains("#")]

以及

hashTags = displaytweets.bodyText.str.contains("#")

但是我收到了这个错误:

  <ipython-input-20-eb0d77b3103e> in <module>()   
1 #displaytweets[displaytweets['bodyText'].str.contains("#")]       
2 hashTags = displaytweets.bodyText.str.contains("#")   
3 hashTags
  

TypeError:'Column'对象不可调用

1 个答案:

答案 0 :(得分:0)

如果您将数据框转换为hashTags = displaytweets.where(displaytweets['bodyText'].str.contains('#')).dropna() ,则会为您提供所需内容:

    with open("dataset.txt", 'r') as f:
        for line in f:
            print (line.split("\t"))[1]