应用错误收集

我已经下载了很多html页面，我想从每个这样的标签中提取（单个文件存储在目录和子目录中）

            <h2><a href="index.html">TITLE</a></h2>
            <p class="postTime">7 September, 2011 - 20:43</p>

            <p>TEXT</p>
            <p>TEXT</p>

            <p class="postmetadata">
              Posted by Person in <a href="../../category/THECATEGORY/index.html"

我需要提取以下内容

来自h2：TITLE
从p（没有任何一个班级）：TEXT，TEXT
来自a课程内的postmetadata：THECATEGORY

可以使用任何编程语言，但最好使用Python。我正在使用Linux。

从下载的html页面中提取某些Text和URI部分

0 个答案: