我是2岁的学生,正在从事文本挖掘工作。
一般而言,让我告诉您有关代码的信息,它首先接受pdf类型的文本并将其转换为 doc.txt 文件,然后处理该数据几百行,然后在存储所有该文本中的句子添加到名为 all_text 的列表中(以备将来使用),同时我选择一些文本并将其存储在名为 summary 的列表中。
最后问题出在这部分:
摘要列表如下
summary=['Artificial Intelligence (AI) is a science and a set of computational technologies that are inspired by—but typically operate quite differently from—the ways people use their nervous systems and bodies to sense, learn, reason, and take action.','In reality, AI is already changing our daily lives, almost entirely in ways that improve human health, safety,and productivity.','AI is also changing how people interact with technology.']
从doc.txt中逐句阅读我想要的内容,如果该句子在摘要列表中,则将该句子放入摘要中的BOLD标记“ 句子”中以修改该句子此处列出的是我尝试用于该特定部分的小代码,它无济于事,但这是
while i < len(lis):
if lis[i] in txt:
txt = txt.replace(lis[i], "<b>" + lis[i] + "</b>")
print(lis[i])
i += 1
此代码没有按我预期的那样工作,我的意思是它对某些短句子有效,但对那些我不知道为什么它不起作用的句子无效,请帮我?
答案 0 :(得分:0)
为此,您可以使用列表理解,例如:
summary = ['sentenceE','sentenceA']
text = ['sentenceA','sentenceB','sentenceC','sentenceD','sentenceE']
output = ['<b>'+i+'</b>' if (i in summary) else i for i in text]
print(output) #prints ['<b>sentenceA</b>', 'sentenceB', 'sentenceC', 'sentenceD', '<b>sentenceE</b>']
请注意,summary
和text
应该是list
中的str
s。