使用NER从网页中提取信息

时间:2018-05-19 06:56:34

标签: machine-learning nlp ner

我的任务是从特定网站的各种网页中提取信息。现在,要提取的信息可以是产品名称,产品ID,价格等形式。信息使用自然语言以文本形式给出。此外,我被要求使用一些机器学习算法提取该信息。我想过使用NER(命名实体识别)并对自定义训练数据进行训练(我可以使用抓取的数据进行准备,并根据需要手动标记整数/数据)。我想知道模型是否可以这样工作?

另外,如果我能进一步改进这个问题,请告诉我。

1 个答案:

答案 0 :(得分:0)

您说特定网站。我假设这意味着你对网页的结构有一些了解,如果数据是表格形式或自由文本形式,网站通常看起来如何。在这种情况下,一些简单的正则表达式(价格,ids等)由一些POS标签支持提取产品名称,所有这些都足够了。监督方法肯定是一种矫枉过正的方法,可能比简单的正则表达方式表现不佳。