标签: python web-scraping nlp python-newspaper
我需要用Python从网上报纸上抓文章。
我已经为范围测试了很多Python库,它们似乎都运行得很好,只有一个例外:它们不会跟踪文本中的链接和图像。如果保存这些资源(与Newspaper3k一样),它们存储的是一个单独的变量,并且无法理解链接和图像在文本中的确切位置。
更好的解决方案是使用库将HTML转换为markdown(专门针对新闻),因为这也会保持粗体和斜体< / em> text。