应用错误收集

使用链接和图像提取新闻文章内容

时间：2018-06-16 16:48:04

标签： python web-scraping nlp python-newspaper

我需要用Python从网上报纸上抓文章。

我已经为范围测试了很多Python库，它们似乎都运行得很好，只有一个例外：它们不会跟踪文本中的链接和图像。如果保存这些资源（与Newspaper3k一样），它们存储的是一个单独的变量，并且无法理解链接和图像在文本中的确切位置。

更好的解决方案是使用库将HTML转换为markdown（专门针对新闻），因为这也会保持粗体和斜体< / em> text。

0 个答案:

没有答案

相关问题

从新闻网站提取新闻链接

Facebook喜欢按钮不显示新闻文章内容

如何使用java从新闻文章中提取发布时间和文章内容？

从存储的.html页面

android获取新闻文章内容

如何使用Jsoup提取新闻文章？

Android：提取文章主要内容

Nutch Crawler不会检索新闻文章内容

试图从新闻文章中提取元数据

使用链接和图像提取新闻文章内容

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？