まとめて検索『KOTONOHA』

まとめて検索『KOTONOHA』とは?

「まとめて検索『KOTONOHA』」は、複数のコーパスを同時に検索し、 その集計結果をグラフ化して視覚的に観察できるサービスです。
コーパス開発センターがこれまで提供してきた従来のコーパス検索システム『中納言』は、 現代日本語書き言葉均衡コーパス(BCCWJ)や日本語話し言葉コーパス(CSJ)といったコーパスを それぞれ"個別"の画面で検索し、結果を閲覧するサービスでした(個別検索)。
これに対してKOTONOHAは、「まとめて検索」の名前の通り、中納言の中のコーパスを1度にまとめて検索し、 その集計結果をユーザに表示します。 これを専門的な用語で「包括的検索」「串刺し検索」「横断検索」と言ったりします。
こうした検索を実現するためには、 それぞれのコーパスが何かしら統一された枠組みの中で構築されている必要がありますが、 国立国語研究所には電子化辞書『UniDic』という、 単語(短単位)を斉一に認定し、管理していく枠組みがあります。
中納言の中のコーパスはいずれもUniDicの中の単語として斉一に切り出され、UniDicの形態論情報が付与されています。 そのため我々は特に不自由を感じることなく、それぞれのコーパスをまたいで単語を検索し、 調べたい単語について各コーパスでの出現状況を俯瞰的に観察できます。
そのためのツールが、KOTONOHAです。

使用例1: 任意の単語について、書き言葉と話し言葉での使用を比較できます。

「けれど」という表現は書き言葉よりも、話し言葉でよく使われていることがわかります。

kotonoha_periodimage
クリックすると拡大します

使用例2: 任意の単語について、時代ごとの使用の変化を観察できます。

「恋しい」という表現の使用が現代に向かうにつれ、徐々に減っていることがわかります。


クリックすると拡大します

KOTONOHAで検索可能なコーパスリスト(2019年11月現在)

コーパス名(日) コーパス名(英) 略称
現代日本語書き言葉均衡コーパス Balanced Corpus of Contemporary Written Japanese BCCWJ
国語研日本語ウェブコーパス NINJAL Web Japanese Corpus NWJC
日本語話し言葉コーパス Corpus of Spontaneous Japanese CSJ
日本語日常会話コーパス Corpus of Everyday Japanese Conversation CEJC
名大会話コーパス Nagoya University Conversation Corpus NUCC
現日研・職場談話コーパス Gen-Nichi-Ken Corpus of Workplace Conversation CWPC
日本語諸方言コーパス Corpus of Japanese Dialects COJADS
日本語歴史コーパス Corpus of Historical Japanese CHJ
多言語母語の日本語学習者横断コーパス International Corpus of Japanese as a Second Language I-JAS

KOTONOHAマニュアル




注1)KOTONOHAはバックグラウンドで中納言検索系を使っている都合、コーパスのまとめて検索を完全な形で利用するには、 中納言上で各コーパスの利用申請・利用許諾を得た上で、下図のように中納言内のコーパスすべてを検索できる状態にしておかないといけません。

cond_0

注2)中納言内のすべてのコーパスが利用可能でない場合は (上図のようにすべてにチェックがついていない場合は)、 利用可能なコーパスの検索結果のみ表示されます。
また、検索対象内のカテゴリ(例:検索対象「話し言葉・書き言葉」の「話し言葉」)に属するコーパスすべてが利用可能な場合に限り、 カテゴリ内の調整頻度が表示されます。

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

lrw

blank_title

unidic_btn

chamame_btn

wlsp_btn

trycopus_title

syonagon_btn

chunagon_btn

kotonoha_btn