[Anthy-dev 2737] Re: 単語収集ツールのプロトタイプ

Back to archive index

Kazuhiro NISHIYAMA zn****@mbf*****
2005年 12月 19日 (月) 19:38:19 JST


西山和広です。

>>> Sun, 18 Dec 2005 21:18:00 +0900 の刻に
>>> yusuk****@w5*****(Yusuke TABATA) 氏曰く
> せめてC++、できればruby等で書くべきという気もします。また、HTTPの
> ライブラリを使うべきですね...

さくっと出来そうだったので、rubyで書き直してみました。

見出しの行を無視するようにしていないのは、hiki側で
tdからthにする方が良さそうだと思ったからです。


#!/usr/bin/ruby -Ke

require 'open-uri'

def scan_table(html)
  html.scan(%r!<tr>#{"<td>(.+)</td>\n"*5}</tr>!o) do |m|
    puts "#{$2} 1 #{$1}"
    puts "品詞 = 名詞"
    puts "な接続 = n"
    puts "さ接続 = n"
    puts "する接続 = n"
    puts "語幹のみで文節 = y"
    puts "格助詞接続 = y"
    puts
  end
end

html_filenames = []
while filename = ARGV.shift
  if '-f' == filename
    filename = ARGV.shift
    open(filename) do |f|
      f.each do |line|
        next if /^\#/ =~ line
        html_filenames.push(line.chomp)
      end
    end
  else
    html_filenames.push(filename)
  end
end

html_filenames.each do |filename|
  open(filename) do |f|
    scan_table(f.read)
  end
end



-- 
|ZnZ(ゼット エヌ ゼット)
|西山和広(Kazuhiro NISHIYAMA)



Anthy-dev メーリングリストの案内
Back to archive index