基本上我有这些文件(来自NCBI的medline)。每个都与期刊标题相关联。每个都有0个,1个或更多个genbank标识号(GBID)。我可以将每个文件的GBID数量与每个日志名称相关联。我的问题是我可能有多个文件与同一个日志关联,我不知道如何将每个文件的GBID数量添加到每个日志的GBID总数中。
我目前的代码: jt代表期刊标题,从文件中正确拉出。 GBID将被添加到遇到的计数中。
完整代码:
#!/usr/local/bin/ruby
require 'rubygems'
require 'bio'
Bio::NCBI.default_email = 'kepresto@uvm.edu'
ncbi_search = Bio::NCBI::REST::ESearch.new
ncbi_fetch = Bio::NCBI::REST::EFetch.new
print "\nQuery?\s"
query_phrase = gets.chomp
"\nYou said \"#{query_phrase}\". Searching, please wait..."
pmid_list = ncbi_search.search("pubmed", "#{query_phrase}", 0)
puts "\nYour search returned #{pmid_list.count} results."
if pmid_list.count > 200
puts "\nToo big."
exit
end
gbid_hash = Hash.new
jt_hash = Hash.new(0)
pmid_list.each do |pmid|
ncbi_fetch.pubmed(pmid, "medline").each do |pmid_line|
if pmid_line =~ /JT.+- (.+)\n/
jt = $1
jt_count = 0
jt_hash[jt] = jt_count
ncbi_fetch.pubmed(pmid, "medline").each do |pmid_line_2|
if pmid_line_2 =~ /SI.+- GENBANK\/(.+)\n/
gbid = $1
jt_count += 1
gbid_hash["#{gbid}\n"] = nil
end
end
if jt_count > 0
puts "#{jt} = #{jt_count}"
end
jt_hash[jt] += jt_count
end
end
end
jt_hash.each do |key,value|
# if value > 0
puts "Journal: #{key} has #{value} entries associtated with it. "
# end
end
# gbid_file = File.open("temp_*.txt","r").each do |gbid_count|
# puts gbid_count
# end
我的结果:
Your search returned 192 results.
Virology journal = 8
Archives of virology = 9
Virus research = 1
Archives of virology = 6
Virology = 1
基本上,如何让它说病毒学档案= 15,但是对于任何期刊的头衔?我尝试了一个哈希,但病毒学的第二个档案只是覆盖了第一个......有没有办法让两个键在哈希中添加它们的值?
答案 0 :(得分:1)
我并不完全遵循你在这里所要求的。
但是,您要覆盖给定哈希键的值,因为您这样做:
jt_count = 0
jt_hash[jt] = jt_count
您之前已经初始化了哈希:
jt_hash = Hash.new(0)
也就是说,每个键的默认值都是0.因此,没有必要将jt_hash [jt]初始化为0。
如果删除此行:
jt_hash[jt] = jt_count
然后jt_hash [jt]的值应该为每次循环
累积ncbi_fetch.pubmed(pmid, "medline").each do |pmid_line|
....
end
答案 1 :(得分:0)
更改这两行:
jt_count = 0
jt_hash[jt] = jt_count
到此:
if jt_hash[jt] == nil
jt_count = 0
jt_hash[jt] = jt_count
else
jt_count = jt_hash[jt]
end
这只是检查该键的空值是否为空值,如果为空,则在其中键入一个整数。如果它不为null,则返回前一个整数,以便添加。