Question

我从Kindle电子书中提取了大量HTML。而且它有很多重复的元素和重复的子串。

长话短说，Kindle DRM删除了90％的注释，我使用了它没有删除的位置数据来取回它。但亚马逊的位置数据有点不精确（相当于150字节的块），所以我最终得到了很多冗余。

示例：

public List<Video> filtra_data(string date)
            {
                List<Video> lista_filtrata = new List<Video>();
                for (int i = 0; i < listavideo.Count; i++)
                {
                    if (listavideo[i].Data.Contains(date) == true)
                        lista_filtrata.Add(listavideo[i]);
                }
                return lista_filtrata;
            }

有没有人对可能有用的东西有任何想法？

Answer 1

天哪，这是一团糟。从你显示的一小部分输出看来，重要的东西似乎在段落标签中。我会使用python（http://www.crummy.com/software/BeautifulSoup/bs4/doc/）的美丽汤来从<P>标签中提取所有信息，然后删除多余的信息。如果你想保留其他格式，那将是一个熊。我回去后会尝试使用美味的汤，并确信我无法以更好的格式出口。

从Scraped HTML中删除重复的子串/元素？

1 个答案: