我想解析HTML看起来像这样的网址:
<tr>
<th scope="row">채용부문</th>
<td>서비스 개발</td>
</tr>
(这只是一个例子,还有更多的韩国语混合了英语和HTML标签等。)
在找到채용부문(所有网址的<th>
标签内的相同字词)后,我想提取서비스개발(这个词在各处都不同),并且比如将它存储在数据库中。
最好的方法是什么?
我使用Code Table Korean Hangul的代码没有运气,但我想我只是做错了。例如:使用字符串'\uC9C0'
(代码为지)作为关键字无法帮助我找到单词지역。
任何帮助表示感谢。
答案 0 :(得分:0)
我认为你遇到了字符编码问题。我不懂韩语。 但我可以举一个中国人的例子,也许你可以从中学习。
的1.txt:
<tr>
<th scope="row">我们</th>
<td>我们是冠军</td>
</tr>
a.py:
# coding=utf-8
with open("1.txt") as f:
for line in f:
can_line = line.decode('gbk') # line 1
pos = can_line.find(u'冠军') # line 2
if pos >= 0:
print line
上面的代码将输出:
<td>我们是冠军</td>
但如果我们没有line1,并且不添加&#39; u&#39;在你想要在第2行找到的关键字之前,你什么也得不到。
在这里你必须知道python internal会使用unicode存储东西,line1会改变行(用gbk编码)到unicode,而line2也会改变&#39;冠军&#39;(用utf-8编码)到unicode因此,可以比较两个unicode,然后找到工作。
我不确定它是如何在韩国语言中发挥作用的,但我认为对于东亚语言来说,它可能是类似的,仅仅是FYI。