如何在表格中构造Web数据

时间:2018-08-18 00:52:26

标签: r web web-scraping

我的第一个R脚本抓取如下所示的Web表:

class InfoScreenVC: UIViewController {
    let defaults = UserDefaults.standard

    override func viewDidAppear(_ animated: Bool) {
        let storyboard = self.storyboard?.value(forKey: "name")
        UserDefaults.standard.set(storyboard, forKey: "storyBoard") // save to user defaults
        let newViewController = self.restorationIdentifier
        UserDefaults.standard.set(newViewController, forKey: "viewController")
    }
}

如何将其更改为如下所示的行和列数据框

User Interface Revisited

前6列我需要添加列名,后2列使用网络数据中的名称

我如何做到这一点

1 个答案:

答案 0 :(得分:0)

我认为您不能,因为此时数据太乱了。

如果您运行此行来替换<U+00A0>

gsub("<U\\+00A0>", " ", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST")

你会得到

RACE2 CLS5 1200M ST GRS ARATE:(0-40) GING:FAST

您可以从那里继续

library(tidyverse)
gsub("<U\\+00A0>", "\\\n", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST") %>%
        str_split(pattern="\\\n", simplify)

产生

[[1]]
[1] "RACE2"        "CLS5"         "1200M"        "ST"           "GRS"          "ARATE:(0-40)"
[7] "GING:FAST"   

但是我认为您的数据包含太多缺少的属性名称,太少的“:”分隔符,并且无法可靠地检测到NA值。