从twitter读取数据,然后将其保存在MongoDB中
data.list <- searchTwitter('#demonetization ', n=10)
data.df = twListToDF(data.list)
temp=mongo.bson.from.df(data.df)
mongo <- mongo.create()
DB_Details <- paste(twitter, "filterstream", sep=".")
mongo.insert.batch(mongo, DB_Details, temp)
读取MongoDB中的数据并将其保存在数据集变量中(表的所有列都存储在此变量中)。
mongo <- mongo(db = "twitter",collection = "filterstream",url = "mongodb://localhost")
dataset <- mongo$find()
当我尝试打印dataset
变量的内容时没有问题(参见OUTPUT-1),但是当我尝试打印column from dataset
变量时,列的输出(参见OUTPUT -2)与先前的输出(OUTPUT-1)不同。
OUTPUT1
> **dataset**
--------------------------------------------------
| id | text |
--------------------------------------------------
| 1 | <ed><U+00A0><U+00BD><ed><U+00B8><U+0082><ed><U+00A0><U+00BD>
<ed> <U+00B8> <U+0082><ed><U+00A0><U+00BD>
<ed> <U+00B1><U+0087>\nSome great jokes on #DeMonetization on
my TL today.\n\nThank you, Modi ji. <ed><U+00A0><U+00BD>
<ed><U+00B1><U+0087> |
--------------------------------------------------
| 2 | should be one |
--------------------------------------------------
OUTPUT-2
> **dataset$text**
| id | text |
--------------------------------------------------
| 1 | \xed��\xed�\u0082\xed��\xed�\u0082\xed��\xed�\u0087\nSome great jokes on #DeMonetization on my TL today.\n\nThank you, Modi ji. \xed��\xed�\u0087 |
--------------------------------------------------
| 2 | should be one |
--------------------------------------------------
4.在 OUTPUT-2 中检测这些奇怪的字符并摆脱它们很困难。我可以使用 OUTPUT-1 中的content of text column
使用REGEX删除特殊字符(标记)并获取干净的文本,但 OUTPUT-2中的content of text column
非常不同,我无法删除那些特殊奇怪的角色。
5.为什么在从数据集打印特定列时内容突然改变,我做错了什么。