• R/O
  • HTTP
  • SSH
  • HTTPS

seijiseikana-database: List of commits

正字正かなづかひの假名漢字變換用辭書などのテキストデータ。及びそれらを活用するプログラム……のはずだつたのだけれど現在は破毀されてゐます。


RSS
Rev. Time Author
4ecd6f1 master 2010-12-27 01:22:48 Hiroshi Moriyama

dict.xml: マーク附け修正

49d158e 2010-12-27 01:20:27 Hiroshi Moriyama

dict.xsd, dict.xml: 屬性 annotation を定義

surface要素にannotation屬性を定義した。變換候補と一緒に表示される短い
註釋などに、この値が利用されることを想定してゐる。

20b23d9 2010-12-27 01:01:21 Hiroshi Moriyama

dict.xml: マーク附け修正

369747b 2010-12-27 00:39:29 Hiroshi Moriyama

dict.xml: 二語追加

* とりあつかひ 取扱ひ 名詞
* とりあつか・ふ 取(り)扱・ふ ハ行四段

17f21fa 2010-12-27 00:23:30 Hiroshi Moriyama

dict.xmlを更新

實驗的に送り假名のパタンをすべて列挙してゐた「取扱説明書」の表層形
(surface要素)を一つにし、verbose-okuri要素によつて「冗長な送假名」を
明示する方式に戻した。

<surface><stem>取<verbose-okuri>り</verbose-okuri>扱<verbose-okuri>ひ</verbose-okuri>説明書</stem></surface>

このマーク附けでは送假名のすべてのパタンを列擧することは出來ないが、
かな漢字變換用の辭書向けには全てのパタンは必要ない。形態素解析向けに
は全部欲しいところだがとりあへずそれは後回しにして置かうと思ふ。

なほこのマーク附けからは、次の四つのパタンを取り出せる:

* 取扱説明書 … 冗長な送假名(verbose-okuri要素)を一切含まない形
* 取り扱ひ説明書 … 全部のverbose-okuri要素を含む形
* 取扱ひ説明書 … 二つのverbose-okuri要素を含む形
* 取り扱説明書 … 一つ目のverbose-okuri要素を含む形

verbose-okuri要素を入籠にすれば全てのパタンの列擧も可能になるかも知れ
ないが、變換處理やマーク附けが煩雜になつてくる。

cbb4f3b 2010-12-26 14:01:32 Hiroshi Moriyama

dict.xml: surface要素、kana要素をそれぞれグループ化

dict.xmlのsurface要素をsurfaces要素の子要素、
kana要素をreadings要素の子要素としてそれぞれグループ化した。
これに伴ひ dict.xsd と sort-dict.xsl を更新。

新規ファイル groupoing.xsl はグループ化に使用したスタイルシート。

651aae0 2010-12-23 20:18:40 Hiroshi Moriyama

dict.xml: 一語追加 「そこな・ふ」

2064f30 2010-12-23 20:09:41 Hiroshi Moriyama

dict.xml: 「取扱説明書」の項目で、送り假名の全パタンを列擧してみる實驗。

2d32012 2010-12-18 23:17:19 Hiroshi Moriyama

* indent.xsl: 字下げの幅を文字列ではなく數値で指定するやうにした(字
下げ一つ分の幅をグローバル變數 offset にセットする)。

9042d78 2010-12-18 23:12:54 Hiroshi Moriyama

* indent.xsl: dict.xml用の指定追加。surface, kana要素の子孫要素を整
形しないやうに。

c03fc97 2010-12-18 22:39:40 Hiroshi Moriyama

* indent.xsl: xsl:text要素の改行を數値參照に置き換へた。

eca744d 2010-12-18 22:36:16 Hiroshi Moriyama

* dict.xml: New file, XMLを用ゐた汎用辭書の試作。
* dict.xsd: New file, dict.xmlのXML Schema定義。
* indent.xsl: New file, XML文書整形用スタイルシート。
* sort-dict.xsl: New file, dict.xmlの内容をソートするスタイルシート。

7d446e2 2010-12-18 20:01:56 Hiroshi Moriyama

dictディレクトリの中身をすべてルートディレクトリに移した。

ce18682 2010-12-14 12:08:32 Hiroshi Moriyama

メールアドレスの變更。

b2d7a4e 2009-03-23 09:49:00 Hiroshi Moriyama

新規ファイル `dict/seikanadict'

かな漢字變換向の「讀み」「變換後の形」「品詞」からなるシンプ
ルな辭書。「讀み」をローマ字で表記し、活用の「段」の區別を無
くしてある。See also
<http://magicant.txt-nifty.com/main/2009/03/post-af09.html>.

4dccd96 2009-03-20 20:17:51 Hiroshi Moriyama

dict/tankanji-seikana-jisx0208: 843行更新

462a10d 2009-03-20 16:50:37 Hiroshi Moriyama

『正字正かな單漢字辭書(假稱)』の雛形を追加

單漢字辭書の雛形`dict/tankanji-seikana-jisx0208'、及び同ファ
イルを生成するのに用ゐたスクリプトを追加。

`dict/tankanji-seikana-jisx0208'の漢字の竝び順は現在『闇黒日
記』での漢字の出現回數の多い順になってゐる。これは實際に使用
される漢字のデータから埋めて行き、滅多に使用されない漢字の作
業を後廻しにするため。

c015cc8 2009-03-20 14:09:10 Hiroshi Moriyama

資料『闇黒日記』を追加

プログラムから扱ひ易いやうUTF-8・XML化した『闇黒日記』のバッ
クナンバ。

* "闇黒日記のバックナンバなど"
<http://noz.hp.infoseek.co.jp/diary/>

f9dd6b1 2009-03-14 20:41:59 Hiroshi Moriyama

Initial commit of the Seijiseikana Database

正字正かなづかひに基いた日本語情報處理の爲の辭書その他のテキ
ストデータ集。及びそれらを作成・編輯する爲のスクリプトなど。

Show on old repository browser