我想从网页中提取一些特定信息。网页包含人员档案,我想提取姓名,电子邮件,研究兴趣领域等信息。每页的结构彼此不同。
如何使用机器学习提取此类信息? 我可以使用什么样的方法,功能? 或者我可以使用NLP进行此类任务吗?
以下是一些示例页面:
SELECT o.EntityName,
o.EntityId,
(SELECT (SELECT i.TagId "Tag/@id",
i.Value "Tag/@value"
FROM elbat i
WHERE i.EntityId = o.EntityId
FOR XML PATH(''),
TYPE)
FOR XML PATH('Tags')) Value
FROM elbat o
GROUP BY o.EntityName,
o.EntityId;
<div class="item-content">
<h3 class="item-title">Dr J. Doe</h3>
<h4 class="small-text">Senior Lecturer </h4>
<img src="/email-domailn.png" style="margin-top: -2px;">
<br>
<i class="fa fa-linkedin"></i>
<br>
<p>
<strong>Research Interests:</strong>Natural Language Processing - Bioinformatics - Machine Learning</p>
答案 0 :(得分:0)
如果您想要获取网页的有意义元素并删除HTML元素,我建议使用库来解析代码并仅提取文本数据,如BeautifoulSoup。
Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。
您可以在此处找到一些文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/