我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上搜集文章。我刮了几个网站,但没有正确存储文章,因此我不能使用它们。当我再次尝试抓取相同的网站时,它只会抓取新文章,而不是它已经刮过的文章。有没有办法让我刮掉我已经刮过的文章?
答案 0 :(得分:1)
默认情况下,报纸会缓存所有以前提取的文章,并删除所有已经提取的文章。
此功能可以防止重复的文章并提高提取速度。
您可以使用let someFloats = [0.0 .. 10.0]
let theFloatsDividedByFour1 = someFloats |> List.map ((/) >> (|>) 4.0)
let theFloatsDividedByFour2 = someFloats |> List.map (fun f -> f / 4.0)
参数选择退出此功能。
例如,在您的情况下,将其设置为False:
memoize_articles