Section 1
Prev     Next

1   はじめに

このマニュアルでは,日本語解析のためのアノテーションの枠組みについて詳しく解説する。Penn Treebank (Bies et al 1995) に従って,統語構造をラベル付き括弧によって表示する。より詳しくは,Annotation manual for the Penn Historical Corpora and the Parsed Corpus of Early English Correspondence (PCEEC)(Santorini 2010) を一例とするペン通時統語解析コーパスグループで提案された方式を採用する。この方式の特徴は,生成文法研究者にとって親しみやすいタグが使われ,また動詞句(VP)構造が廃止され,句ノード(NP,PP,等)はそれぞれの句主要部を直接支配し,さらにすべての節(clause)ノードおよび節の一部を構成しているすべての名詞句(NP)についてその機能が表示されることである。また,現行のアノテーションでは曖昧性解消のための特別な意味論的情報が加えられている。

     実際のアノテーションは第一に観察の妥当性を目指すものでなければならない。その目的は,同定可能な言語的な関係・過程を裏付けるデータに一定の言語学的な分析を示すことである。言語的な関係・過程は可能な限り均一に取り扱われる。本マニュアルではそれらを詳述する。記述のシステムが理論的に正しいか否かという問題を別として,アノテーションは語彙的・機能的要素,品詞,様々なカテゴリーに属し様々な機能をもつ構成素,ある特徴をもつと捉えられる構造に対し,明瞭な方法で行われる。本マニュアルはアノテーター(単位分割,タグ,構造における位置を指定する)とユーザー(要素のクラス,カテゴリー,要素間の関係を検索する)の両方に向けられたものである。解析されたデータの検索ツールとして, CorpusSearch (Randall 2009),^1 および Tregex (Levy and Andrew 2006).^2 が挙げられる。

     現行のアノテーションは Treebank Semantics (Butler 2015).^3 の方式を用い,統語的な分析をベースに述語論理に基く意味表示を生成することも目指しており,統語的な分析から意味的な分析を計算するための特別の曖昧性解消のための情報が加えられている。その1つは,節連結のタイプ(つまり,非終結節の終わりのタイプ)を特定するためのタグである。アノテーションでは従属節に CND (conditional) と SCON (non-conditional) の2つのタイプを認めている。従属節のタイプはその節における空主語の位置,および先行詞との関係に影響を与える(これは,「コントロール」と呼ばれる照応計算に従う)。2つのタイプの従属節は,曖昧性解消のタグ CONJ を与えられる並列的な節連結と対比される。等位節は他の節と共有される項の配置に影響を与える(これは,ATB (Across the Board) 抽出と呼ばれる照応計算に従う)。これらのタグが適切に与えられ,それに基づいて計算が行われることにより,日本語のほとんどの照応関係は,明示的なラベル付けをすることなしに適切に測定することができる。この実践により意味計算を行うための確固とした基盤を築くこと,また,記述として正しいアノテーション体系を単純化すること,空要素の種類と位置 ーー例えば,ゼロ代名詞の分布ーー の原理を把握することが可能になる。


1. See: http://corpussearch.sourceforge.net/

2. See: http://nlp.stanford.edu/software/tregex.shtml

3. See: http://www.compling.jp/ajb129/ts,html


Prev     Next
contents  Home  Section 2