平成282016)年度 一般研究1実施報告書

 

課題番号

28−共研−1035

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

6

研究課題名

日本語近代語文献の自動デジタル化に関わる要素技術の評価

フリガナ

代表者氏名

マエカワ キクオ

前川 喜久雄

ローマ字

Maekawa Kikuo

所属機関

人間文化研究機構 国立国語研究所

所属部局

研究系音声言語研究領域

職  名

教授

 

 

研究目的と成果(経過)の概要

 本研究の目的は、将来におけるコーパス構築の半自動化を念頭において、国立国会図書館のデジタルアーカイブ等に収録されている明治期の雑誌および単行本の一部を対象として、誌面・紙面に活字で印刷された近代語のテキストを自動的に文字認識してデジタル化するために必要となる要素技術について、既存技術を評価し、新技術開発の可能性を検討することにある。
 本研究の実施期間は実質3か月に限られていたので、関係者からの意見聴取ののち、『思想』『国民之友』『太陽』『東洋学芸雑誌』の4誌から抽出したサンプルを対象として、既存技術の評価を実施した。既存のうち最先端と考えられるレイアウト解析技術とOCR認識技術を用いた場合、手作業で作成した正解とOCRによる認識結果をF値で評価すると、『思想』は0.92,『東洋学芸雑誌』は0.8,『太陽』と『国民之友』は0.75となった。
 『思想』以外のサンプルには多くの困難があることがわかる。誤認識の原因としては、(1)ルビの存在、(2)カタカナの字体、(3)変体仮名の存在、(4)漢文における返り点の存在、(5)画像と本文の境界認定の失敗、(6)コピー時のゴミの存在、(7)活字のかすれ、(8)表記のゆれなどが認定されたが、総じて、明治期雑誌のレイアウトの複雑さに起因するものが多いと判断された。
 これらの問題を解消するために、言語モデルをOCRに導入する可能性についても検討を行ったが、或るモデルの導入が特定の問題の解消には有効であっても、他の面で悪影響を生じることがあり、総体として言語モデルの導入がどれだけ問題の解消に役立つかについては、明瞭な見通しを得ることが困難であった。この問題については、今後、OCRソフトの開発に従事している技術者から意見を聴取するなどして、一層の情報収集に努める必要がある。また、カタカナ字体のリスト作成、変体仮名のリスト作成など、日本語学サイドからの貢献によって解消できる問題もあることが確認できた。



 




 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

 現状では特になし。2017年秋に国立国語研究所の言語資源活用ワークショップ2017で成果の一部を発表する予定がある。

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

以下の非公開研究会を開催した。テーマはいずれも研究進捗状況の報告と打合せであった。
2017年11月22日、国立国語研究所、7名
2017年12月21日、国立国語研究所、6名
2018年1月26日、国立国語研究所、6名
2018年3月21日、国立国語研究所、8名




 

研究参加者一覧

氏名

所属機関

浅原 正幸

人間文化研究機構 国立国語研究所

小木曽 智信

人間文化研究機構国立国語研究所

北本 朝展

情報・システム研究機構国立情報学研究所

高田智和

人間文化研究機構 国立国語研究所

前田 忠彦

統計数理研究所

増田 勝也

東京大学

松井 知子

統計数理研究所

美馬 秀樹

東京大学

持橋 大地

統計数理研究所