Question

我正在尝试解析存储在.csv文件中称为“文本”的列中的推文。我想使用正则表达式，TweetTokenizer等，但是所有这些都要求文本采用字符串形式（据我所知）。

我看到了这篇文章：

Parsing a tweet inside a csv column in Python

但是对我来说，该代码对于查找主题标签太具体了。我确实想这样做，但是没有人知道如何更广泛地将“文本”列中的文本转换为字符串以便我可以解析吗？

谢谢， punpun

Answer 1

阅读csv文件时，文本列应作为字符串导入：

df = pd.read_csv('tweet.csv')
print(df)

输出：

            user                                               text
0  scotthamilton  is upset that he can't update his Facebook by ...
1       mattycus  @Kenichan I dived many times for the ball. Man...
2        ElleCTF     my whole body feels itchy and like its on fire
3         Karoli  @nationwideclass no, it's not behaving at all....
4       joy_wolf                       @Kwesidei not the whole crew
5        mybirch                                         Need a hug

print(df.dtypes)

输出：

user    object
text    object
dtype: object

Pandas object dtype与Python str类型相同，用于文本。

如果确实需要将列类型转换为str，则可以使用以下内容：

df.text = df.text.astype(str)

解析存储在pandas数据框列中的推文

1 个答案: