跨多个HTML文档提取跨越的信息

时间:2013-03-20 12:51:11

标签: html beautifulsoup extraction

我遇到一个问题,我有大约700个html文档,每个文档包含一个字母中包含的一个字母,所有文档都在同一个类中。

有没有办法把所有的字母拿出来加入?也许使用BeautifulSoup或其他方法?

1 个答案:

答案 0 :(得分:1)

当然有。尝试这样的事情:

import os
from BeautifulSoup import BeautifulSoup

letter_list = []
for file in os.listdir('path/to/dir'):
    with open('path/to/file', 'r') as html_file:
        html = ' '.join(str(x) for x in list(html_file)) # Combines each row in file into a single string
        soup = BeautifulSoup(html)

        letter = soup('span',{'class':'someclass'})[0].contents[0]
        letter_list.append(letter)

my_string = ''.join(str(x) for x in letter_list)

这将迭代目录,打开每个html文件并解析字符串。提取的字母将附加到列表中,并在解析完所有文件后加入。