.net中的boilerpipe的HtmlHighlighter不会始终返回文本

时间:2012-10-15 10:28:56

标签: text-extraction boilerpipe

我在我的应用程序中使用Boilerpipe,当我尝试使用ArticleExtractor提取内容时,我只获取了平面文本,所有html格式化已被删除,所以我尝试使用HtmlHighlighter。但是HtmlHighlighter的处理方法对某些网址失败了。 是否有任何选项使用html字符串传递给此方法?任何人都能解释一下吗?

1 个答案:

答案 0 :(得分:0)

您可以使用IKVM将Boilerpipe jar转换为新的DLL,以便在.NET应用程序中使用。我正在使用这种方法,并在发送html抛出不同的samppipe方法时工作正常。

如果您尝试访问的页面内容是通过javascript加载的,则简单的http请求无法处理此类信息。 首先,您需要在javascript更改后获取结果html,然后将其提供给samppipe。