日本語文章におけるゼロ代名詞解析に関する基礎的な考察 [概要] 日本語文章においては,文章を構成する文,あるいは文を構成する節の構成要素に対応する表現が,文脈や知識に依存して省略される現象が数多く存在し,日本語文章理解システムや日本語機械翻訳システムの構成において,このような省略問題の解決は長期にわたる重要な課題である.本考察では,文章における省略現象の一つであるゼロ代名詞の解析に関する基礎的な考察を進めている.基本的な資料として,「教育出版株式会社発行,改訂しょうがくこくご/小学国語1年〜6年」中の文章を「小学国語テキストベース」として電子化したものを用いている.「小学国語テキストベース」には,文章の種類に依存した,様々なゼロ代名詞現象が出現していて,比較対照的な考察を進めることができる. [例:日本語文章におけるゼロ代名詞] <1.1>[φ1が]外へ出ようと思って,[φ2が]げんかんの戸を開けると, かわいい子ねこがちょこんとすわっていました. <1.2>わたしは,[φ3が]びっくりしましたが,[φ4が]寒そうにしているので, [φ5が][φ6を]家の中に入れてやりました. 文章の最初の部分の2文で,原文章では[φiが(を)]の部分は省略されて表現されていない.[φi]でゼロ代名詞を表現している.ゼロ代名詞を復元すれば次のようになるであろう. <1.1>[私が]外へ出ようと思って,[私が]げんかんの戸を開けると, かわいい子ねこがちょこんとすわっていました. <1.2>私は,[私が]びっくりしましたが,[かわいい子ねこが]寒そうにしているので, [私が][かわいい子ねこを]家の中に入れてやりました. 基本的な処理は,ゼロ代名詞の同定,ゼロ代名詞の指示対象の探索と決定,指示対象の表現と復元である.φ1,φ2,φ3,φ5は,同じ指示対象'私',φ4,φ6は,同じ指示対象'かわいい子ねこ'を参照している.φ1,φ2の解決のためには,文章の類型や構造についての知識,φ3,φ5の解決のためには,文の構造についての知識,φ4,φ6の解決には,文脈と文法的,常識的な知識の利用が必須である. [ゼロ代名詞解析のためのモデル/アルゴリズム] 亀山恵[談話分析:整合性と結束性,in「田窪行則他著,談話と文脈,岩波書店」,pp.93-121,1999.]により提案されたCENTERモデルを基礎として三つのモデルを段階的に構成し,ゼロ代名詞解析のためのモデルについて考察を進めている.それらのモデルの構成におけるゼロ代名詞解析の基本的な処理は次のようにまとめることができる. (1)ゼロ代名詞の指示対象候補の保持:中心性に基づく構成と保持. (2)ゼロ代名詞の同定:動詞・名詞の意味構造に基づく同定. (3)ゼロ代名詞の指示対象の決定:制約に基づく決定. 文脈中の指示対象の保持のしくみとして,CENTERモデルは,指示対象候補として一個の対象(CENTER)を保持するモデルである.これを最小の保持数として,文脈中に出現したすべての対象を保持するモデルまで,段階的,構造的な保持のしくみを考えることができる.最初に構成するCENTER++モデルは,トピック(主題)を特別に取り立てるモデルである.成山[S. Nariyama:Grammar for ellipsis resolution in Japanese, Proc. of TMI-2002 Conference, pp.135-145,2002.]によるSRL(Salient Referent List)モデルは,文(節)に出現するすべての明示的な対象を保持するモデルである.SRLモデルを拡張してORL(Ordered Referent List)モデルを構成する. 最適性理論を適用した代名詞解析のモデルが提案されているが,これらは,原理的には文脈中に現れるすべての対象を代名詞の可能な指示対象候補とするモデルである.最適性理論に基づく代名詞解析においては,代名詞の指示対象の解決において,いくつかの制約を設定して,制約を満たすことにおいて最適な(調和的な)候補を代名詞の指示対象として決定する.指示対象の段階的,構造的な保持のしくみと最適性理論に基づくモデルにおける制約による指示対象の解決のしくみを組み合わせたゼロ代名詞解析のアルゴリズムの構成について基礎的な考察を進めている.ゼロ代名詞の指示対象の解決における制約の適用のしくみは,ゼロ代名詞解析における知識と文脈情報の統合的な処理方式の構成にとって有用なしくみであると考えることができる. |