我使用文章提取器从博客中提取数据,该文章提取器以字符串格式返回文章。由于某些页面具有进入新闻内容的子链接,我希望也能提取数据。那么,我如何访问子链接内的数据?我的代码是这样的:
String news =" ";
try
{
URL url;
url = new URL("http://www.firstpost.com/tag/crime-in-india");
InputSource is = HTMLFetcher.fetch(url).toInputSource();
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();
news = ArticleExtractor.INSTANCE.getText(doc);
}
答案 0 :(得分:0)
import net.sf.json.xml.XMLSerializer;
XMLSerializer xmlSerializer = new XMLSerializer();
JSON json = xmlSerializer.read( news );
答案 1 :(得分:0)
检查构建路径中的库导入 - 尤其是在Eclipse
中我遇到了2个独立项目的问题,原来我在json-lib-2.4-jdk15.jar中有较旧的net.sf.json版本库(也有旧版本)