国立国語研究所
 
 

概要 INTRODUCTION to CHJ

『日本語歴史コーパス』は、デジタル時代における日本語史研究の基礎資料として開発を進めているコーパスです。全てのテキストに読み・品詞などの形態論情報が付与されているため、従来の紙の総索引の代わりになるだけでなく、より高度な検索や集計が行えます。

公開中の内容については、以下の各ページをご覧ください。

日本語歴史コーパス

『日本語歴史コーパス』の構築は、以下のプロジェクトの成果の一部です。

形態論情報

『日本語歴史コーパス』は、通時的な分析を可能とするため、『現代日本語書き言葉均衡コーパス』をはじめとした現代語のコーパスと同一の言語単位(短単位と長単位)を採用し、テキストに品詞などの形態論情報を付与しています。

形態論情報の規定については、現代日本語書き言葉均衡コーパスの規定をご確認ください。

ご利用にあたって

『日本語歴史コーパス』は、オンライン検索ツール「中納言」を通してご利用いただけます。ご利用には利用許諾契約契約が必要です。詳しくは利用・申込方法をご覧ください。



中納言

コーパス検索アプリケーション「中納言」利用申込

「中納言」利用申込ページ

※ Web上の申し込みページに必要事項を記入して申請したのち、携帯電話のショートメッセージ(SMS)または封書(密封的信)で受け取った登録コードを入力することで利用可能になる仕組みです。

※ 既に中納言のアカウントをお持ちの方は、ログイン後にコーパス追加申請ができます。

『日本語歴史コーパス』を利用した研究成果等を発表される際は、必ず下記の情報を明記してください。(バージョンやアクセス年月日は適宜置き換えてください)

  • 国立国語研究所(2019)『日本語歴史コーパス』(バージョン2019.3,中納言バージョン2.4.2)https://chunagon.ninjal.ac.jp/(2019年4月1日確認)

※ バージョンかアクセス年月日のいずれかを明記すれば下記のように短縮しても構いません。

  • 国立国語研究所(2019)『日本語歴史コーパス』https://chunagon.ninjal.ac.jp/(2019年4月1日確認)
  • 国立国語研究所(2019)『日本語歴史コーパス』バージョン2019.3 https://chunagon.ninjal.ac.jp/

なお、「平安時代編」など『日本語歴史コーパス』の一部分だけを利用する際には、各時代別ページの記述にしたがってください。

サンプルID

各コーパスの「サンプル」(巻、節、記事など)には、時代や作品などが個別に認識される15桁のIDが付与されており、IDのそれぞれの桁は、以下のことを表わします。

1-2桁目3桁目4-5桁目6-9桁目10桁目11-15桁目
時代ジャンル作品ID成立時期区切り記号作品内での出現順通し番号

なお、「平安時代編」と「室町時代編Ⅰ 狂言」では、CHJバージョン2015.3をバージョン2016.3に更新した際、サンプルIDの更新を行いました。新旧バージョンのサンプルIDの対照が必要な場合は、下記の対照表データをご利用ください。

参考文献

開発スタッフ

『日本語歴史コーパス』の構築に携わった人たちのリスト(五十音順)です。

    新井美桜 荒井啓宏 池上尚 市村太郎 岩崎瑠莉恵 上野左絵 梅田明日香 蝦名翠 大久保歩美 大坂朋文
    大和田賢一 岡照晃 岡部嘉幸 岡本祐子 小川志乃 小木曽智信 小椋秀樹 笠間裕美 片山久留美 加藤文明子
    金子愛 上和田優子 川島拓馬 河瀬彰宏 木川あづさ 北﨑勇帆 呉寧真 鴻野知暁 小西光 小林正行
    近藤明日子 近藤泰弘 佐藤佑 下山加那子 白井良介 鈴木崇大 鈴木奈生 須永哲矢 銭谷真人 十河則子
    高田智和 髙橋雄太 瀧田裕子 田口久美子 田中牧郎 伝康晴 中野淳子 中野真樹 中村壮範 仲村怜
    南雲千香子 西尾麻衣子 野田高広 則竹梢 服部紀子 鳩野恵介 坂東諒 福山雅深 冨士池優美 藤本灯
    古川祐子 堀麻美 堀川千晶 松崎安子 間淵洋子 三浦さつき 宮本友子 村上謙 村山実和子 山田里奈
    若狭絢 渡邉あゆみ 渡辺由貴
 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。