如何使用WKWebView提取网页的主要文本?

时间:2019-08-04 03:07:17

标签: javascript ios swift web-scraping wkwebview

我想从给定的网站中提取主要文本。到目前为止,我通过使用WKWebView和EvaluationJavaScript做到了这一点,但是尽管可以轻松提取HTML中的段落标签,但它在某种程度上无法与the New York TimesBBC之类的网站一起使用。我在做什么错,应该如何解决?

这是我到目前为止使用的代码:

func webView(_ webView: WKWebView, didFinish navigation: WKNavigation!)
{
        webView.stopLoading()
        webView.evaluateJavaScript("document.body.innerText", completionHandler:
        { result, error in
            if let userAgent = result as? String
            {
                print(userAgent)
            }
        })
}

例如,《纽约时报》的文章输出仅给出:

SKIP TO CONTENTSKIP TO SITE INDEX

Image
CreditCredit



Image
Image
Image
Access more of The Times by creating a free account or logging in.
Access more for free.

Site Index
Site Information Navigation

0 个答案:

没有答案