从Scraped HTML中删除重复的子串/元素?

时间:2015-06-25 07:48:02

标签: python html parsing screen-scraping redundancy

我从Kindle电子书中提取了大量HTML。而且它有很多重复的元素和重复的子串。

长话短说,Kindle DRM删除了90%的注释,我使用了它没有删除的位置数据来取回它。但亚马逊的位置数据有点不精确(相当于150字节的块),所以我最终得到了很多冗余。

示例:

public List<Video> filtra_data(string date)
            {
                List<Video> lista_filtrata = new List<Video>();
                for (int i = 0; i < listavideo.Count; i++)
                {
                    if (listavideo[i].Data.Contains(date) == true)
                        lista_filtrata.Add(listavideo[i]);
                }
                return lista_filtrata;
            }

有没有人对可能有用的东西有任何想法?

1 个答案:

答案 0 :(得分:1)

天哪,这是一团糟。从你显示的一小部分输出看来,重要的东西似乎在段落标签中。我会使用python(http://www.crummy.com/software/BeautifulSoup/bs4/doc/)的美丽汤来从<P>标签中提取所有信息,然后删除多余的信息。如果你想保留其他格式,那将是一个熊。我回去后会尝试使用美味的汤,并确信我无法以更好的格式出口。