Skip to content

Chunked word annotation for ITA corpus

License

Notifications You must be signed in to change notification settings

shirayu/ita-corpus-chuwa

Repository files navigation

ITA Corpus Chuwa!

Creative Commons License CircleCI

ITA Corpus Chuwa! is chunked word annotation for ITA corpus, a phonemically balanced public domain corpus of Japanese text.
ITAコーパスChuwa!は音素バランスを考慮したパブリックドメインの日本語テキストコーパスであるITA corpusに対する単語と句のアノテーションです.

概要

ITAコーパスは2種類のセットからなります

  • EMOTION: モノフォン・ダイフォンを考慮した100件
  • RECITATION: モノフォン・ダイフォンに加えてトライフォンを豊富に含むように作られた324件

本アノテーションでは,以下のようなものは複数文として扱いました.

EMOTION100_014
スミスさん、ピエール・デュボワをご紹介しますわ。私の親友なの。

そして,EMOTIONは113文,RECITATIONは331文からなるとし,単語(形態素)情報と句・構文情報の付与を行いました.

なお,アノテーション誤りを見つけられた方はIssuesからお知らせいただければ幸いです.

データ

data/input

ITA Corpusの原文を文分割したものがTSVであります

data/knp

Developer

Links

Licence

CC0 1.0 Universal (CC0 1.0)