Section 4 | ||
---|---|---|
単位分割と品詞ラベル付与は終端ノードを,純粋に語彙的な要素の中に機能的な要素を取り込むことを避けながら,できるだけ大きくとるという方針に従う。これはおおむね,Corpus of Spontaneous Japanese (CSJ; Maekawa 2003) および Balanced Corpus of Contemporary Written Japanese (BCCWJ; Maekawa et al 2014) の長単位基準に従っている。短単位は UniDic (Den et al 2008) のエントリーと一致する。長単位は少なくとも1つの短単位から成るが,2つ以上の短単位から成る複合的なものが普通である。
長単位分析から得られるチャンキングは複合名詞や複合動詞に限らない。文法化された様々な要素(例えば,形式名詞と助詞のペア,モーダルな表現,等)も1つにまとめられる。複合的な長単位は通常,1つの単位として扱われる。例えば,数詞は短単位では個々の数字に分析されるが,解析の際には長単位に従って,これらを1つの単位として扱う。
BCCWJ と CSJによる長単位のチャンキングは統語的な分析のために定められた単位であるが,妥当な統語論の記述を行おうとしながら,直接構成素のツリーを生成するためには情報が不十分な場合がある。そのため,環境によっては短単位をさらに分割することがある(例えば,動詞の意志形は語幹と意志を表す形態素から成る (VB 結ぼ) (MD う) のように分析される)。逆に,長単位の連続を1つにまとめることもある(例えば,個々の固有名詞をまとめて1つにする)。さらに,統語論に影響しないような形態論的な細かな分析は無視されることがある(例えば,人名と地名の違い)。その一方で,重要と考えられるものについては独自の分析を与える(例えば,同形ではあるが,文法的な機能という観点から,2つ以上に分けられる要素)。これらは,フラットで検索が容易であるという特徴を保持しながら言語の機能的な構造を洗い出すという目的から行われるものである。
チャンキングは自動解析で可能な限り大きな単位にまとめるという方針で行う。これらはアノテーターがまず最初に目にする単位である。しかし,そのような単位の中に明らかに構造として表現されるべきものがふくまれる場合,あるいは,構造の意味的な影響を示す必要がある場合には,チャンキングがなされないこともある。例えば,「中」という形態素は「旅行」のような動詞的な名詞に後続することがあり,UniDic では名詞化接尾辞として分析され,長単位にまとめられる。この分析は,それが名詞修飾要素を伴う場合には問題ない。
(2)
楽しいはずの旅行中に便秘になる
しかし,以下のように「旅行」が項をとっており,「中」を形式名詞として分析した方がよい場合もある。
(3)
佐藤さんは海外を旅行中だ。
( (IP-MAT (PP (NP (NPR 佐藤さん))
(P は))
(NP-SBJ *)
(NP-PRD (IP-EMB (NP-SBJ *pro*)
(PP (NP (N 海外))
(P を))
(NP-OB1 *を*)
(VB 旅行))
(N 中))
(AX だ)
(PU 。))
(ID 53_misc_EXAMPLE))
もうひとつは,通常は複合的な助詞とされるものを分割する場合である。UniDIC は様々な動詞と助詞の組み合わせを複合助詞としてチャンキングしている。以下のように,「にしたがって」では「従う」という動詞の意味が希薄である。
(4)
「地は生き物を種類にしたがっていだせ。
( (IP-IMP (-LRB- 「)
(PP (NP (N 地))
(P は))
(NP-SBJ *)
(PP (NP (N 生き物))
(P を))
(NP-OB1 *を*)
(PP (NP (N 種類))
(P にしたがって))
(VB いだせ)
(PU 。))
(ID 46_bible_old))
このように,UniDic の分析は正しいことが多いが,いかのように「にしたがって」という複合助詞ではなく,「したがう」という動詞が用いられていると分析されるべき場合がある。
(5)
モーセは主の命にしたがって、パランの荒野から彼らをつかわした。
( (IP-MAT (PP (NP (NPR モーセ))
(P は))
(NP-SBJ *)
(IP-ADV (PP (NP (PP (NP (N 主))
(P の))
(N 命))
(P に))
(VB したがっ)
(P て))
(CONJ *)
(PU 、)
(PP (NP (PP (NP (NPR パラン))
(P の))
(N 荒野))
(P から))
(PP (NP (PRO 彼ら))
(P を))
(NP-OB1 *を*)
(VB つかわし)
(AXD た)
(PU 。))
(ID 408_bible_old))
このような場合には,アノテーターが単位分割を行い,とりだされた要素のそれぞれに適切なラベルを与える必要がある。
Section 3 | Section 5 |