我正尝试清除大量推文,超过1500万条。 所以首先我收集了许多txt文件并将它们连接在一起。 当我尝试通过从终端运行python文件清理推文时,得到:
被杀:9
当我在Jupyter笔记本中运行它时,我得到:
内核似乎已经死亡。它将自动重启。
我看到了一些建议更新NumPy和tensorflow的解决方案。我做到了,什么都没发生。同样的错误。
我尝试在concat之前仅使用dataframe之一,它工作正常,因此看来问题出在我的DataFrame的大小上。
我在发生错误的推文中清理过程的示例代码:
# remove mentions
df['clean_tweet'] = np.vectorize(remove_pattern)(str(df['tweet']),"@[\w]*")
该如何解决?我尝试了所有可能无法解决的解决方案。 我想创建一个新的专栏,将有干净的推文。 我也尝试过只调整相同的列但有相同的错误。