Question

从twitter读取数据，然后将其保存在MongoDB中

 data.list <- searchTwitter('#demonetization ', n=10)
 data.df = twListToDF(data.list)
 temp=mongo.bson.from.df(data.df)
 mongo <- mongo.create()
 DB_Details <- paste(twitter, "filterstream", sep=".")
 mongo.insert.batch(mongo, DB_Details, temp)

读取MongoDB中的数据并将其保存在数据集变量中（表的所有列都存储在此变量中）。

 mongo <- mongo(db = "twitter",collection = "filterstream",url = "mongodb://localhost")
 dataset <- mongo$find()

当我尝试打印dataset变量的内容时没有问题（参见OUTPUT-1），但是当我尝试打印column from dataset变量时，列的输出（参见OUTPUT -2）与先前的输出（OUTPUT-1）不同。

OUTPUT1

  > **dataset**    

   --------------------------------------------------
    | id        | text              |
    --------------------------------------------------
    | 1         | <ed><U+00A0><U+00BD><ed><U+00B8><U+0082><ed><U+00A0><U+00BD>
                   <ed> <U+00B8>               <U+0082><ed><U+00A0><U+00BD>
                   <ed> <U+00B1><U+0087>\nSome great jokes on #DeMonetization on 
                   my   TL today.\n\nThank you, Modi ji. <ed><U+00A0><U+00BD> 
                   <ed><U+00B1><U+0087>  |
    --------------------------------------------------
    | 2         | should be one              |
    --------------------------------------------------

OUTPUT-2

 > **dataset$text**

    | id        | text              |
    --------------------------------------------------
    | 1         | \xed��\xed�\u0082\xed��\xed�\u0082\xed��\xed�\u0087\nSome great jokes on #DeMonetization on my TL today.\n\nThank you, Modi ji. \xed��\xed�\u0087  |
    --------------------------------------------------
    | 2         | should be one              |
    --------------------------------------------------

4.在 OUTPUT-2 中检测这些奇怪的字符并摆脱它们很困难。我可以使用 OUTPUT-1 中的content of text column使用REGEX删除特殊字符（标记）并获取干净的文本，但 OUTPUT-2中的content of text column 非常不同，我无法删除那些特殊奇怪的角色。

5.为什么在从数据集打印特定列时内容突然改变，我做错了什么。

从MongoDB

0 个答案: