朱莉娅:网站刮痧?

时间:2018-04-28 15:55:58

标签: web-scraping julia

我一直在努力推进这个小代码,以便从期刊网站获取新闻标题和链接。

using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end

website_parser("https://www.nature.com/news/newsandviews")

问题是,一旦我从网站上获得文本,我就无法弄清楚如何继续。如何检索特定元素(在这种情况下作为新闻的标题和链接)?

非常感谢任何帮助,谢谢

1 个答案:

答案 0 :(得分:4)

您需要某种HTML解析。对于仅提取标题,您可能可以使用正则表达式built in

如果它比那更复杂,正则表达式don't generalize,你应该使用一个成熟的HTML解析器。 Gumbo.jl似乎是朱莉娅的最新技术,并且界面相当简单。

在后一种情况下,拆分文件是不必要的;在前者中,它至少会使事情变得更复杂,因为那时你必须考虑换行。所以,最好先解析,然后拆分。