如何使用newspaper3k重新阅读网站上的新闻

时间:2018-06-15 03:49:45

标签: python nlp sentiment-analysis python-newspaper

我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上搜集文章。我刮了几个网站,但没有正确存储文章,因此我不能使用它们。当我再次尝试抓取相同的网站时,它只会抓取新文章,而不是它已经刮过的文章。有没有办法让我刮掉我已经刮过的文章?

1 个答案:

答案 0 :(得分:1)

默认情况下,报纸会缓存所有以前提取的文章,并删除所有已经提取的文章。

此功能可以防止重复的文章并提高提取速度。

您可以使用let someFloats = [0.0 .. 10.0] let theFloatsDividedByFour1 = someFloats |> List.map ((/) >> (|>) 4.0) let theFloatsDividedByFour2 = someFloats |> List.map (fun f -> f / 4.0) 参数选择退出此功能。

例如,在您的情况下,将其设置为False:

memoize_articles