从R中的模式中提取数据

时间:2017-04-25 00:55:59

标签: mysql r text-mining data-extraction

我有兴趣将此文本文件中的数据转换为可以加载到MySQL Workbench数据库中的格式。

https://sbir.nasa.gov/SBIR/abstracts/17-1.html

我想运行一些R代码,它会在每行标题为

之后给出我的业务名称

“小企业关注:(公司名称,邮件地址,城市/州/邮政编码,电话)”

例如,我正在寻找一个看起来像这样的输出:

Transition45 Technologies,Inc。 ATSP创新

等。我可以加载到数据库列中。

希望有道理,我对此比较陌生。感谢。

1 个答案:

答案 0 :(得分:0)

你的问题/问题不明确。

如果我是正确的,你想提取在“小企业关注:(公司名称,邮件地址,城市/州/邮政编码,电话)”后面写下的地址详细信息,对吗? 。如果是,那么

url <- "https://sbir.nasa.gov/SBIR/abstracts/17-1.html"

abstracts_page <- readLines(url)
abstracts_page <- gsub("<.*?>", "", abstracts_page)
abstracts_page <- gsub("\\t+", "", abstracts_page)

address_header_index <- grep("SMALL BUSINESS CONCERN:", abstracts_page)

address_list <- lapply(address_header_index, function(i) {
  return(abstracts_page[(i + 2):(i + 6)])
})

address_list <- data.frame(do.call("rbind", address_list))

head(address_list)

#                                          X1                                   X2                   X3
# 1          Transition45 Technologies, Inc.                1739 North Case Street      Orange,&nbsp;CA
# 2                         ATSP Innovations                    60 Hazelwood Drive   Champaign,&nbsp;IL
# 3         Cornerstone Research Group, Inc.               2750 Indian Ripple Road      Dayton,&nbsp;OH
# 4 Interdisciplinary Consulting Corporation      5745 Southwest 75th Street, #364 Gainesville,&nbsp;FL
# 5                 CFD Research Corporation  701 McMillian Way Northwest, Suite D  Huntsville,&nbsp;AL
# 6           LaunchPoint Technologies, Inc.        5735 Hollister Avenue, Suite B      Goleta,&nbsp;CA

#            X4             X5
# 1 92865-4211  (714) 283-2118
# 2 61820-7460  (217) 417-2374
# 3 45440-3638  (937) 320-1877
# 4 32608-5504  (352) 283-8110
# 5 35806-2923  (256) 726-4800
# 6 93117-6410  (805) 683-9659