ITA Corpus Chuwa!
is chunked word annotation for ITA corpus, a phonemically balanced public domain corpus of Japanese text.
ITAコーパスChuwa!
は音素バランスを考慮したパブリックドメインの日本語テキストコーパスであるITA corpusに対する単語と句のアノテーションです.
ITAコーパスは2種類のセットからなります
EMOTION
: モノフォン・ダイフォンを考慮した100件RECITATION
: モノフォン・ダイフォンに加えてトライフォンを豊富に含むように作られた324件
本アノテーションでは,以下のようなものは複数文として扱いました.
EMOTION100_014
スミスさん、ピエール・デュボワをご紹介しますわ。私の親友なの。
そして,EMOTION
は113文,RECITATION
は331文からなるとし,単語(形態素)情報と句・構文情報の付与を行いました.
なお,アノテーション誤りを見つけられた方はIssuesからお知らせいただければ幸いです.
ITA Corpusの原文を文分割したものがTSVであります
- 京都大学テキストコーパスや京都大学ウェブ文書リードコーパスと同様の品詞体系(益岡・田窪品詞体系)でアノテーションしています
- 句間の係り受け関係も付与している.
- 各形態素の意味情報に
発音
を付与し,ITAコーパスの発音と一致するようにしています - ドキュメント
- Yuta Hayashibe
- I support Tohoku sisters.
- I supported the crowdfunding for the creation of the ITA corpus, etc.