国立国語研究所
 
 

語彙統計:バージョン2018.3

『日本語歴史コーパス』バージョン2018.3の語彙統計は以下の通りです。

「中納言」版CHJ/短単位語数表Short-Unit-Word

『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから短単位語数データがダウンロードできます。

短単位tsvデータ(Version2018.3)のダウンロード

短単位語数Excelデータのダウンロード

「中納言」版CHJ/長単位語数表Long-Unit-Word

『日本語歴史コーパス』「中納言」収録データの語数は以下のファイルの通りです。 サンプルID・コア/非コア・本文種別(引用を含む)・文体ごとに、語数(記号を含む場合と含まない場合)をまとめました。

次のリンクから長単位語数データ(サンプル別)がダウンロードできます。

長単位語数tsvデータ(Version2018.3)のダウンロード

長単位語数Excelデータのダウンロード

『日本語歴史コーパス(CHJ)』語彙表

『日本語歴史コーパス』「中納言」収録データの語彙素別の語数(および語種・品詞別の語数)を時代・作品別にまとめました。

次のリンクからダウンロードできます。

CHJ短単位語彙表

CHJ長単位語彙表

 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。