一种对html文件进行排序的方法

时间:2012-09-15 12:54:00

标签: c# .net string converter

首先,我使用的IDE是带有.net框架的可视化C#。

好的,我有大约20,000个html文档,其中包含我需要提取的信息并按日期顺序排序。

文件上的日期存储在此html标记

<td valign="top" class="createdate">
        Tuesday, 03 April 2012 20:39    
</td>

注意:每个html文件中的所有日期都采用该格式

我想提取日期,然后想要自动读取每个html文档并测量短语或单词的出现次数。

我不是要求别人为我创建整个程序,但是如果你能提供尽可能多的细节我如何对这些20000个html文件进行排序并提取单词或短语的出现日期和次数然后导出信息到word格式或excel我将非常感激。

哦,我正在使用研究数据进行论文,我知道如何对井字符串和所有字符串方法进行字符串操作,例如查找单词的出现等。

我遇到的问题是如何获取html数据或者只是内容,然后将它们排序为可用的格式。谢谢

1 个答案:

答案 0 :(得分:1)

您确定所有HTML文档都具有该格式吗?在这种情况下,包含日期的字符串可以通过简单的字符串操作或通过RegEx提取(侧面,注意,通常,正则表达式不是suited用于解析HTML,但对于此用例,保持简单的声音喜欢这里的方式)。如果您需要进行更重的解析,请考虑HtmlAgilityPack

然后使用DateTime.TryParse将日期从字符串转换为DateTime对象。