我一直在努力推进这个小代码,以便从期刊网站获取新闻标题和链接。
using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end
website_parser("https://www.nature.com/news/newsandviews")
问题是,一旦我从网站上获得文本,我就无法弄清楚如何继续。如何检索特定元素(在这种情况下作为新闻的标题和链接)?
非常感谢任何帮助,谢谢
答案 0 :(得分:4)
您需要某种HTML解析。对于仅提取标题,您可能可以使用正则表达式built in。
如果它比那更复杂,正则表达式don't generalize,你应该使用一个成熟的HTML解析器。 Gumbo.jl
似乎是朱莉娅的最新技术,并且界面相当简单。
在后一种情况下,拆分文件是不必要的;在前者中,它至少会使事情变得更复杂,因为那时你必须考虑换行。所以,最好先解析,然后拆分。