计算文档中的平均行长度

时间:2015-10-12 16:50:09

标签: python beautifulsoup

我尝试用美丽的汤来计算文件的平均线长,但我意识到它并不简单

我尝试了类似的东西,结果很奇怪

$scope.selectFn = function(){
     console.log($scope.opt.selector);
}

当我检查结果时:

self.average_line_length = np.mean([ len(br.text) for br in self.contents.find_all('br')])

结果:

for s1 in my_doc.contents.find_all(re.compile('br')) :
    print s1,len(s1) 

通常必须是:

<br> does not contain any document with the entity or if our practition-
<br> er has only selected a verbal descriptor of the compound not used 
<br> within  the  documents.  In  fact,  a  query  on  ‘</br></br></br></br> **252**

'

1 个答案:

答案 0 :(得分:0)

根据你的结果,你的html实际上如下:

....
<br> 
    does not contain any document with the entity or if our practition-
    <br> er has only selected a verbal descriptor of the compound not used 
        <br> within  the  documents.  In  fact,  a  query  on  ‘
        </br>
    </br>
</br>
....

请参阅?嵌套的br元素。

BeautifulSoup找到三个嵌套的br元素。当你的代码打印出来时,find_all结果中的第一个是最外面的'br',它包含两个内部brs。及其text属性为:

  

不包含任何与该实体的文件或我们的从业者 -    呃只选择了未使用的化合物的口头描述符    在文件内。实际上,查询'