Question

我想解析HTML看起来像这样的网址：

<tr>
    <th scope="row">채용부문</th>
    <td>서비스 개발</td>
</tr>

（这只是一个例子，还有更多的韩国语混合了英语和HTML标签等。）

在找到채용부문（所有网址的<th>标签内的相同字词）后，我想提取서비스개발（这个词在各处都不同），并且比如将它存储在数据库中。

最好的方法是什么？

我使用Code Table Korean Hangul的代码没有运气，但我想我只是做错了。例如：使用字符串'\uC9C0'（代码为지）作为关键字无法帮助我找到单词지역。

任何帮助表示感谢。

Answer 1

我认为你遇到了字符编码问题。我不懂韩语。但我可以举一个中国人的例子，也许你可以从中学习。

的1.txt：

<tr>
   <th scope="row">我们</th>
   <td>我们是冠军</td>
</tr>

a.py：

# coding=utf-8
with open("1.txt") as f:
    for line in f:
        can_line = line.decode('gbk') # line 1
        pos = can_line.find(u'冠军') # line 2
        if pos >= 0:
            print line

上面的代码将输出：

<td>我们是冠军</td>

但如果我们没有line1，并且不添加＆＃39; u＆＃39;在你想要在第2行找到的关键字之前，你什么也得不到。

在这里你必须知道python internal会使用unicode存储东西，line1会改变行（用gbk编码）到unicode，而line2也会改变＆＃39;冠军＆＃39;（用utf-8编码）到unicode因此，可以比较两个unicode，然后找到工作。

我不确定它是如何在韩国语言中发挥作用的，但我认为对于东亚语言来说，它可能是类似的，仅仅是FYI。

Python 2.7：搜索韩语

1 个答案: