Develop and Download Open Source Software

Show incremental difference of selected versions of NHocrについて.

category(Tag) tree

file info

category(Tag)
root
file name
about-140830
last update
2014-08-31 00:37
type
HTML
editor
H. Goto
description
NHocrの紹介
language
Japanese
translate
--- /tmp/DOCMAN2cenUUE	2024-09-13 16:16:24.829464670 +0900
+++ /tmp/DOCMAN25a08AI	2024-09-13 16:16:24.829464670 +0900
@@ -1,106 +1,113 @@
-<html>
-<head>
-<meta http-equiv="Content-Type" content="text/html;charset=EUC-JP">
-<style type="text/css">
-  h1 {text-align: left}
-  h2 {text-align: left}
-  .stext {font-size: small;}
-</style>
-<title>NHocr - the Japanese OCR - Project Home</title>
-</head>
-<body bgcolor="#f4f4f4">
-<h1>NHocr - 日本語文字認識プログラム</h1>
-
-<p>Since Sep 8, 2008 / Last update: May 3, 2013</p>
-
-<hr width="100%"/>
-<p>
-この文書は<a href="http://code.google.com/p/nhocr/">
-nhocr: OCR engine for Japanese language</a> (Google Code)
-にある紹介文を日本語訳し、若干の変更を加えたものです。
-</p>
-
-
-<a name="introduction"/>
-<h2>NHocrについて</h2>
-
-<p>
-NHocr は日本語等に対応したコマンドライン形式の
-文字認識(OCR)プログラムです。
-NHocr は画像中の日本語文字(ひらがな、カタカナ、漢字等)
-やASCII文字/シンボルを認識します。
-NHocr は、学術関係者に公開された実験的な部分ソースを除いては、
-おそらく最初のオープンソース日本語OCRソフトウェアです。
-</p>
-<p>
-NHocr はウェブサービス
- <a href="http://weocr.ocrgrid.org/">WeOCR</a> でも利用できます。
-<ul>
-<li> 日本語文字認識 - beta: &nbsp;
-  <a href="http://appsv.ocrgrid.org/nhocr/index-j.html">
-  http://appsv.ocrgrid.org/nhocr/index-j.html</a>
-</ul>
-</p>
-<p>
-このプログラムは実験的な意味が強く、
- 文字認識の精度に限界があります。<br>
-(高性能なOCRが必要ならば、製品を買うべきでしょう。)
-</p>
-<p>
-NHocr で用いられている文字特徴量は、
- '90年代後半に堀らによって提案された
- 外郭局所モーメント特徴 (Peripheral Local Moment, P-LM)
- が基本になっています。
-</p>
-<p>
-NHocr は元々、作者の週末プログラミングの成果物です。
-開発は遅いかもしれません。
-</p>
-
-
-<h2>現バージョンにおける制約事項</h2>
-
-<p>
-<ul>
-<li> 現在の NHocr は、ページレイアウトの解析処理が組み込まれていないので、
-  文字行ブロックのイメージしか扱うことができません。
-<li> 全角・半角の文字が混在したり、プロポーショナルフォントが用いられると、
-  認識率が悪化することがあります。というか、します。
-<li> 文字切り出しアルゴリズムはまだ非常に単純なので、
-  文字切り出しの精度は悪いです。
-<li> ASCII文字の認識率は悪いです。欧米言語には、例えば tesseract のような、
-  他のOCRを使うことを奨めます。
-<li> 言語後処理の gramd は試験的なもので、日本語の文書しか扱えません。
-  若干の副作用があるでしょう。
-</ul>
-</p>
-
-<h2>サポートされるプラットフォームと要件</h2>
-<p>
-Solaris SPARC/x86 と Linux が正式にサポートされます。
-NHocr はその他のUNIX(ライク)な環境やMS-Windowsでも
-動作するかもしれません。
-</p>
-<p>
-NHocrは下記サイトで入手できる O2-tools パッケージに依存しています。
-<ul>
-<li> <a href="http://www.imglab.org/p/O2/">
-  http://www.imglab.org/p/O2/</a>
-</ul>
-</p>
-
-
-<a name="license"/>
-<h2>ライセンス</h2>
-<p>
-新版には Apache License 2.0 が適用されます。<br>
-バージョン 1.5e-32 以前には、MIT-Xの派生が適用されています。
-</p>
-
-
-<hr>
-&copy; 2008-2013 &nbsp; <a href="http://www.sc.isc.tohoku.ac.jp/~hgot/">Hideaki Goto</a>
-
-</body>
-</html>
+<html>
+<head>
+<meta http-equiv="Content-Type" content="text/html;charset=EUC-JP">
+<style type="text/css">
+  h1 {text-align: left}
+  h2 {text-align: left}
+  .stext {font-size: small;}
+</style>
+<title>NHocr - the Japanese OCR - Project Home</title>
+</head>
+<body bgcolor="#f4f4f4">
+<h1>NHocr - 日本語文字認識プログラム</h1>
+
+<p>Since Sep 8, 2008 / Last update: Aug. 30, 2014</p>
+
+<hr width="100%"/>
+<p>
+この文書は<a href="http://code.google.com/p/nhocr/">
+nhocr: OCR engine for Japanese language</a> (Google Code)
+にある紹介文を日本語訳し、若干の変更を加えたものです。
+</p>
+
+
+<a name="introduction"/>
+<h2>NHocrについて</h2>
+
+<p>
+NHocr は日本語等に対応したコマンドライン形式の
+文字認識(OCR)プログラムです。
+NHocr は画像中の日本語文字(ひらがな、カタカナ、漢字等)
+やASCII文字/シンボルを認識します。
+NHocr は、学術関係者に公開された実験的な部分ソースを除いては、
+おそらく最初のオープンソース日本語OCRソフトウェアです。
+</p>
+<p>
+NHocr はウェブサービス
+ <a href="http://weocr.ocrgrid.org/">WeOCR</a> でも利用できます。
+<ul>
+<li> 日本語文字認識 - beta: &nbsp;
+  <a href="http://appsv.ocrgrid.org/nhocr/index-j.html">
+  http://appsv.ocrgrid.org/nhocr/index-j.html</a>
+</ul>
+</p>
+<p>
+このプログラムは実験的な意味が強く、
+ 文字認識の精度に限界があります。<br>
+(高性能なOCRが必要ならば、製品を買うべきでしょう。)
+</p>
+<p>
+NHocr で用いられている文字特徴量は、
+ '90年代後半に堀らによって提案された
+ 外郭局所モーメント特徴 (Peripheral Local Moment, P-LM)
+ が基本になっています。
+</p>
+<p>
+NHocr は元々、作者の週末プログラミングの成果物です。
+開発は遅いかもしれません。
+</p>
+
+
+<h2>現バージョンにおける制約事項</h2>
+
+<p>
+<ul>
+<li> 現在の NHocr は、ページレイアウトの解析処理が組み込まれていないので、
+  文字行ブロックのイメージしか扱うことができません。
+<li> 全角・半角の文字が混在したり、プロポーショナルフォントが用いられると、
+  認識率が悪化することがあります。というか、します。
+<li> 文字切り出しアルゴリズムはまだ非常に単純なので、
+  文字切り出しの精度は悪いです。
+<li> ASCII文字の認識率は悪いです。欧米言語には、例えば tesseract のような、
+  他のOCRを使うことを奨めます。
+<li> 言語後処理の gramd は試験的なもので、日本語の文書しか扱えません。
+  若干の副作用があるでしょう。
+</ul>
+</p>
+
+<h2>サポートされるプラットフォームと要件</h2>
+<p>
+Solaris SPARC/x86 と Linux が正式にサポートされます。
+NHocr はその他のUNIX(ライク)な環境やMS-Windowsでも
+動作するかもしれません。
+</p>
+<p>
+NHocrをコンパイルするには、FreeType2の開発環境(ライブラリ)が必要です。
+<ul>
+<li> <a href="http://www.freetype.org/">
+  http://www.freetype.org/</a>
+</ul>
+</p>
+<p>
+0.21以前のNHocrは、下記サイトで入手できる O2-tools パッケージに依存しています。
+<ul>
+<li> <a href="http://www.imglab.org/p/O2/">
+  http://www.imglab.org/p/O2/</a>
+</ul>
+</p>
+
+
+<a name="license"/>
+<h2>ライセンス</h2>
+<p>
+新版には Apache License 2.0 が適用されます。<br>
+バージョン 1.5e-32 以前には、MIT-Xの派生が適用されています。
+</p>
+
+
+<hr>
+&copy; 2008-2014 &nbsp; <a href="http://www.sc.isc.tohoku.ac.jp/~hgot/">Hideaki Goto</a>
+
+</body>
+</html>