Question

我一直在努力推进这个小代码，以便从期刊网站获取新闻标题和链接。

using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end

website_parser("https://www.nature.com/news/newsandviews")

问题是，一旦我从网站上获得文本，我就无法弄清楚如何继续。如何检索特定元素（在这种情况下作为新闻的标题和链接）？

非常感谢任何帮助，谢谢

Answer 1

您需要某种HTML解析。对于仅提取标题，您可能可以使用正则表达式built in。

如果它比那更复杂，正则表达式don't generalize，你应该使用一个成熟的HTML解析器。 Gumbo.jl似乎是朱莉娅的最新技术，并且界面相当简单。

在后一种情况下，拆分文件是不必要的;在前者中，它至少会使事情变得更复杂，因为那时你必须考虑换行。所以，最好先解析，然后拆分。

朱莉娅：网站刮痧？

1 个答案: