信息提取机器学习

时间:2018-05-25 11:14:42

标签: python machine-learning nlp information-extraction

我想从网页中提取一些特定信息。网页包含人员档案,我想提取姓名,电子邮件,研究兴趣领域等信息。每页的结构彼此不同。

如何使用机器学习提取此类信息? 我可以使用什么样的方法,功能? 或者我可以使用NLP进行此类任务吗?

以下是一些示例页面:

SELECT o.EntityName,
       o.EntityId,
       (SELECT (SELECT i.TagId "Tag/@id",
                       i.Value "Tag/@value"
                       FROM elbat i
                       WHERE i.EntityId = o.EntityId
                       FOR XML PATH(''),
                               TYPE)
               FOR XML PATH('Tags')) Value
       FROM elbat o
       GROUP BY o.EntityName,
                o.EntityId;

<div class="item-content">
    <h3 class="item-title">Dr J. Doe</h3>
    <h4 class="small-text">Senior Lecturer </h4>
    <img src="/email-domailn.png" style="margin-top: -2px;">
    <br>
    <i class="fa fa-linkedin"></i>
    <br>
    <p>
        <strong>Research Interests:</strong>Natural Language Processing - Bioinformatics - Machine Learning</p>

1 个答案:

答案 0 :(得分:0)

如果您想要获取网页的有意义元素并删除HTML元素,我建议使用库来解析代码并仅提取文本数据,如BeautifoulSoup。

Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。

您可以在此处找到一些文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/