我从Kindle电子书中提取了大量HTML。而且它有很多重复的元素和重复的子串。
长话短说,Kindle DRM删除了90%的注释,我使用了它没有删除的位置数据来取回它。但亚马逊的位置数据有点不精确(相当于150字节的块),所以我最终得到了很多冗余。
示例:
public List<Video> filtra_data(string date)
{
List<Video> lista_filtrata = new List<Video>();
for (int i = 0; i < listavideo.Count; i++)
{
if (listavideo[i].Data.Contains(date) == true)
lista_filtrata.Add(listavideo[i]);
}
return lista_filtrata;
}
有没有人对可能有用的东西有任何想法?
答案 0 :(得分:1)
<P>
标签中提取所有信息,然后删除多余的信息。如果你想保留其他格式,那将是一个熊。我回去后会尝试使用美味的汤,并确信我无法以更好的格式出口。