构建Instapaper克隆

时间:2010-12-28 19:34:19

标签: c# html text data-mining

我目前正在构建一个Instapaper克隆,需要一些设计算法的帮助。

它有两个组成部分:

  1. 从HTML文档中提取主文本块
  2. 如果保存文章有超过1页,则从所有页面中提取文本
  3. 你们能指出我正确的方向吗? 我将在这个项目中使用.NET 4 C#。

1 个答案:

答案 0 :(得分:1)

  1. 使用Html Agility Pack从HTML文档中提取所需内容。
  2. 与#1相同。
  3. 我认为这并不能为你提供多方向,但你也没有为我提供太多方向。