我想从给定的网站中提取主要文本。到目前为止,我通过使用WKWebView和EvaluationJavaScript做到了这一点,但是尽管可以轻松提取HTML中的段落标签,但它在某种程度上无法与the New York Times或BBC之类的网站一起使用。我在做什么错,应该如何解决?
这是我到目前为止使用的代码:
func webView(_ webView: WKWebView, didFinish navigation: WKNavigation!)
{
webView.stopLoading()
webView.evaluateJavaScript("document.body.innerText", completionHandler:
{ result, error in
if let userAgent = result as? String
{
print(userAgent)
}
})
}
例如,《纽约时报》的文章输出仅给出:
SKIP TO CONTENTSKIP TO SITE INDEX
Image
CreditCredit
Image
Image
Image
Access more of The Times by creating a free account or logging in.
Access more for free.
Site Index
Site Information Navigation