python 2.7:废弃网站

时间:2015-05-21 13:54:50

标签: python python-2.7 web-scraping

我可能正在进行错误的报废,因为我知道编程很少,但我想知道如何从python中的html表中抓取数据并将其与自己的类关联...我不知道#39;我真的知道我这样做是一个例子:

<div class="example">
    <a href="/example/thisexample">
      <span class="name">Product name</span>
    </a>
      <table>
        <tbody>
          <tr class="odd"> Some data </tr>
          <tr class="even"> Some data </tr>
          <tr class="odd"> Some data </tr>
          <tr class="even"> Some data </tr>
          <tr class="odd"> More data</tr>
        </tbody>
      </table>
</div>

到目前为止我能够使用lxml收集数据并将其放在一个列表中,但是,网页包含许多类(例如),并且所有表都有不同的表,行数多于或少于上面。我希望这些表中的数据与类名称相关联,此处为产品名称... 对不起,如果这没什么意义,我是新手,除了几年前的一个介绍课以外没有碰过python

1 个答案:

答案 0 :(得分:1)

您说您将数据存储在列表中,但是您希望它们与您从HTML中获得的类相关联? 如果我理解正确,请将它们存储为字典:

stuff = {}

stuff ['class name#1'] = ['class thing#1来自class','data thing#2来自class',....'data thing#3 from class in class' ]



东西['班级名称#n'] = ....

这样你的“东西”字典就会以关系的方式存储东西,因此你将那些东西与那些东西联系在一起

这有意义吗?那就是你在问什么?

有关词典的更多信息here