我正在创建一个新闻应用,并在文章的网站上添加了网址,例如http://www.bbc.co.uk/news/technology-33379571,我需要一种方法从文章中提取内容。
我已经尝试了jsoup但是它提供了所有的html标签,并且有一个<main-article-body>
但是它提供了我试图提取的文章的链接。我知道samppipe确实做到了但是这对android没有用,我真的很困惑这个问题。
非常感谢任何帮助
答案 0 :(得分:0)
我曾在.Net(c#)中使用过少量数据提取应用程序,并使用正则表达式从新闻网站中提取内容。
基本思想是首先提取所有href链接(根据需要),然后通过发出Web请求来获取详细信息内容。最后使用正则表达式提取新闻正文数据。
注意:此过程存在的一个问题是,当数据源站点发生更改时,您需要更改正则表达式。