我正在测试Personality Insights,我很好奇是否需要在将一系列twitter个人资料的时间表发送给IBM之前进行任何数据清理。
例如,我应该删除推文中包含的网址以及其他Twitter功能,例如单个推文中包含的主题标签或个人资料名称。
我目前没有删除任何数据。但是,我目前正在使用text+=". "+tweetfulltext
将句点与句号和空格连接起来。
答案 0 :(得分:2)
你不需要,因为他们不计入个性,那么如果你已经有一个清理模块,它将有助于字数统计。您需要过滤以删除转推。