我有40k +文章,每篇文章都有不同的细分。每个都作为Python字典存在,其中包含键title
,caegory
,subcat
,content
等。
如何在保持每篇文章的不同子部分之间的分离的同时创建一个语料库,但仍然可以使用该关系进行操作?
因此,当我完成时,我会抓住所有标题并根据其他标题进行操作,但也能够将每个标题链接回主要内容。
我想对此进行POS标记,我不想通过合并所有子部分来搞砸它。
希望这是有道理的。
感谢。
编辑:
语料库还没有制作完成。我将从本文中删除它。以下是数据库中的条目。
{'category': u'Pets',
'content': u"<p>Putting your dog(s) in outdoor dog kennels might seem like a cruel thing to do, but when you consider that they will be</p>.....",
'signature': u'<p>Find out more on <a target="_new" href="http://petadore.com/outdoor-dog- kennels-a-great-way-to-protect-your-dog-without-building-a-fence/">outdoor dog kennels</a> and r read many interesting articles on <a target="_new" href="http://petadore.com/">pet health care</a>.</p>',
'subcat': u'Dogs',
'title': u'Outdoor Dog Kennels & Enclosures'}
如您所见,它是HTML。我想找出一种保留标签的方法,因此我可以对<li>
或<b>
标签中的文本进行测试。那是一个完美的世界。