Kazuhiro NISHIYAMA
zn****@mbf*****
2005年 12月 19日 (月) 19:38:19 JST
西山和広です。 >>> Sun, 18 Dec 2005 21:18:00 +0900 の刻に >>> yusuk****@w5*****(Yusuke TABATA) 氏曰く > せめてC++、できればruby等で書くべきという気もします。また、HTTPの > ライブラリを使うべきですね... さくっと出来そうだったので、rubyで書き直してみました。 見出しの行を無視するようにしていないのは、hiki側で tdからthにする方が良さそうだと思ったからです。 #!/usr/bin/ruby -Ke require 'open-uri' def scan_table(html) html.scan(%r!<tr>#{"<td>(.+)</td>\n"*5}</tr>!o) do |m| puts "#{$2} 1 #{$1}" puts "品詞 = 名詞" puts "な接続 = n" puts "さ接続 = n" puts "する接続 = n" puts "語幹のみで文節 = y" puts "格助詞接続 = y" puts end end html_filenames = [] while filename = ARGV.shift if '-f' == filename filename = ARGV.shift open(filename) do |f| f.each do |line| next if /^\#/ =~ line html_filenames.push(line.chomp) end end else html_filenames.push(filename) end end html_filenames.each do |filename| open(filename) do |f| scan_table(f.read) end end -- |ZnZ(ゼット エヌ ゼット) |西山和広(Kazuhiro NISHIYAMA)