有许多分类广告以非HTML格式(纸张,文字,书面等)出现,往往出售房屋,汽车,租赁,租赁,公寓等。例如,分类广告说,平租广告具有一些功能,如:尺寸,面积,地方,价格,联系信息。 .etc
我的问题是如何提取广告所在或前一篇文章中提及的街道地址(文章/ LOCALITY中提到的地址)?
使用NLTK& amp;有没有解决这个问题的方法python ?? 想象一下,文章的来源是普通的文本文件(.txt)。
答案 0 :(得分:-1)
如果源是.txt格式,正则表达式可能是最好的解决方案。 我认为为所有类型的广告编写正则表达式并不容易(甚至可能),但是您的搜索结果越多,您的搜索结果就越多。