我有兴趣将此文本文件中的数据转换为可以加载到MySQL Workbench数据库中的格式。
https://sbir.nasa.gov/SBIR/abstracts/17-1.html
我想运行一些R代码,它会在每行标题为
之后给出我的业务名称“小企业关注:(公司名称,邮件地址,城市/州/邮政编码,电话)”
例如,我正在寻找一个看起来像这样的输出:
Transition45 Technologies,Inc。 ATSP创新
等。我可以加载到数据库列中。
希望有道理,我对此比较陌生。感谢。
答案 0 :(得分:0)
你的问题/问题不明确。
如果我是正确的,你想提取在“小企业关注:(公司名称,邮件地址,城市/州/邮政编码,电话)”后面写下的地址详细信息,对吗? 。如果是,那么
url <- "https://sbir.nasa.gov/SBIR/abstracts/17-1.html"
abstracts_page <- readLines(url)
abstracts_page <- gsub("<.*?>", "", abstracts_page)
abstracts_page <- gsub("\\t+", "", abstracts_page)
address_header_index <- grep("SMALL BUSINESS CONCERN:", abstracts_page)
address_list <- lapply(address_header_index, function(i) {
return(abstracts_page[(i + 2):(i + 6)])
})
address_list <- data.frame(do.call("rbind", address_list))
head(address_list)
# X1 X2 X3
# 1 Transition45 Technologies, Inc. 1739 North Case Street Orange, CA
# 2 ATSP Innovations 60 Hazelwood Drive Champaign, IL
# 3 Cornerstone Research Group, Inc. 2750 Indian Ripple Road Dayton, OH
# 4 Interdisciplinary Consulting Corporation 5745 Southwest 75th Street, #364 Gainesville, FL
# 5 CFD Research Corporation 701 McMillian Way Northwest, Suite D Huntsville, AL
# 6 LaunchPoint Technologies, Inc. 5735 Hollister Avenue, Suite B Goleta, CA
# X4 X5
# 1 92865-4211 (714) 283-2118
# 2 61820-7460 (217) 417-2374
# 3 45440-3638 (937) 320-1877
# 4 32608-5504 (352) 283-8110
# 5 35806-2923 (256) 726-4800
# 6 93117-6410 (805) 683-9659