从MongoDB

时间:2016-12-02 14:14:34

标签: r regex mongodb

  1. 从twitter读取数据,然后将其保存在MongoDB中

     data.list <- searchTwitter('#demonetization ', n=10)
     data.df = twListToDF(data.list)
     temp=mongo.bson.from.df(data.df)
     mongo <- mongo.create()
     DB_Details <- paste(twitter, "filterstream", sep=".")
     mongo.insert.batch(mongo, DB_Details, temp)
    
  2. 读取MongoDB中的数据并将其保存在数据集变量中(表的所有列都存储在此变量中)。

     mongo <- mongo(db = "twitter",collection = "filterstream",url = "mongodb://localhost")
     dataset <- mongo$find()
    
  3. 当我尝试打印dataset变量的内容时没有问题(参见OUTPUT-1),但是当我尝试打印column from dataset变量时,列的输出(参见OUTPUT -2)与先前的输出(OUTPUT-1)不同。

  4. OUTPUT1

      > **dataset**    
    
       --------------------------------------------------
        | id        | text              |
        --------------------------------------------------
        | 1         | <ed><U+00A0><U+00BD><ed><U+00B8><U+0082><ed><U+00A0><U+00BD>
                       <ed> <U+00B8>               <U+0082><ed><U+00A0><U+00BD>
                       <ed> <U+00B1><U+0087>\nSome great jokes on #DeMonetization on 
                       my   TL today.\n\nThank you, Modi ji. <ed><U+00A0><U+00BD> 
                       <ed><U+00B1><U+0087>  |
        --------------------------------------------------
        | 2         | should be one              |
        --------------------------------------------------
    

    OUTPUT-2

     > **dataset$text**   
    
        | id        | text              |
        --------------------------------------------------
        | 1         | \xed��\xed�\u0082\xed��\xed�\u0082\xed��\xed�\u0087\nSome great jokes on #DeMonetization on my TL today.\n\nThank you, Modi ji. \xed��\xed�\u0087  |
        --------------------------------------------------
        | 2         | should be one              |
        --------------------------------------------------
    

    4.在 OUTPUT-2 中检测这些奇怪的字符并摆脱它们很困难。我可以使用 OUTPUT-1 中的content of text column使用REGEX删除特殊字符(标记)并获取干净的文本,但 OUTPUT-2中的content of text column 非常不同,我无法删除那些特殊奇怪的角色。

    5.为什么在从数据集打印特定列时内容突然改变,我做错了什么。

0 个答案:

没有答案