まとめて検索『KOTONOHA』マニュアル(検索条件の指定)

まとめて検索『KOTONOHA』とは?

「まとめて検索『KOTONOHA』」は、複数のコーパスを同時に検索し、 その集計結果をグラフ化して視覚的に観察できるサービスです。
コーパス開発センターがこれまで提供してきた従来のコーパス検索システム『中納言』は、 現代日本語書き言葉均衡コーパス(BCCWJ)や日本語話し言葉コーパス(CSJ)といったコーパスを それぞれ"個別"の画面で検索し、結果を閲覧するサービスでした(個別検索)。
これに対してKOTONOHAは、「まとめて検索」の名前の通り、中納言の中のコーパスを1度にまとめて検索し、 その集計結果をユーザに表示します。 これを専門的な用語で「包括的検索」「串刺し検索」「横断検索」と言ったりします。
こうした検索を実現するためには、 それぞれのコーパスが何かしら統一された枠組みの中で構築されている必要がありますが、 国立国語研究所には電子化辞書『UniDic』という単語(短単位)を斉一に認定し、管理していく枠組みがあります。
中納言の中のコーパスはいずれもUniDicの中の単語として斉一に切り出され、UniDicの形態論情報が付与されています。 そのため我々は特に不自由を感じることなく、それぞれのコーパスをまたいで単語を検索し、 調べたい単語について各コーパスでの出現状況を俯瞰的に観察できます。
そのためのツールが、KOTONOHAです。

result_1   result_3
クリックすると拡大します

中納言・KOTONOHAから検索可能なコーパス一覧はこちらをご覧ください




注1)KOTONOHAはバックグラウンドで中納言検索系を使っている都合、コーパスのまとめて検索を完全な形で利用するには、 中納言上で各コーパスの利用申請・利用許諾を得た上で、下図のように中納言内のコーパスすべてを検索できる状態にしておかないといけません。

cond_0

注2)中納言内のすべてのコーパスが利用可能でない場合は (上図のようにすべてにチェックがついていない場合は)、 利用可能なコーパスの検索結果のみ表示されます。
また、検索対象内のカテゴリ(例:検索対象「話し言葉・書き言葉」の「話し言葉」)に属するコーパスすべてが利用可能な場合に限り、 カテゴリ内の調整頻度が表示されます。

検索条件

KOTONOHAの検索方法は、基本的にBCCWJ中納言版の検索フォームで検索と同じで、 検索したい単語(キー)の条件を指定して、「検索する」ボタンを押すだけです。
ただし、BCCWJ中納言版と異なり、短単位検索しかサポートしていません。
これは中納言内のコーパス検索で統一的に実装されているのが短単位検索のみだからです。

cond_1



キー短単位の条件には以下のものが指定できます。

キーの種類 指定方法
書字形出現形 文字列を入力
語彙素 文字列を入力
語彙素読み 文字列を入力(全角カタカナのみ)
語形(基本形) 文字列を入力(全角カタカナのみ)
品詞 大分類/中分類/小分類による選択式
活用型 大分類/中分類/小分類による選択式
活用形 大分類/小分類による選択式
書字形(基本形) 文字列を入力
発音形出現形 文字列を入力(全角カタカナのみ)
語種 選択式


条件は複数指定可能で、「条件を追加する」ボタンで条件入力ボックスを追加できます。
また指定の条件を削除したい場合は、「条件を削除する」ボタンでボックスごと消すことができます。

cond_2



条件はキー短単位だけでなく、その前後の短単位についても指定が可能です。
「前方共起条件を追加する」ボタンで、キー短単位より先の位置で出現する短単位の条件、
「後方共起条件を追加する」ボタンで、キー短単位より後の位置で出現する短単位の条件がそれぞれ指定可能です。
「前方」「後方」いずれも直前直後の1短単位のみでなく、キー短単位から10短単位以内の、範囲もしくは相対位置で指定できます。 またキー短単位からでなく、前方共起条件ならば「文頭・節単位頭・発話単位頭から」、後方共起条件ならば「文頭・節単位頭・発話単位頭から」を指定することも可能で、 キー短単位自体もこれら2つの出現位置指定が可能となっています。

cond_3

cond_4



前方共起条件もしくは後方共起条件(あるいはその両方)を使うと、キー短単位の条件を指定しない(ブランクにする)ことも可能です。

cond_5

cond_6



指定した条件は「検索する」ボタン右の「条件クリア」で初期状態へ、リセット可能です。

cond_7

検索対象

KOTONOHAでは、ラジオボタン「検索対象」から、以下の3種類の検索を行うことができます。

検索条件で指定された条件で中納言内のコーパスを検索し、
(1)コーパス毎:各コーパス毎の集計結果を表示
(2)書き言葉・話し言葉:コーパスを「書き言葉」「話し言葉」のカテゴリに分け、それぞれで集計した結果を表示
(3)時代:歴史コーパス(CHJ)と、BCCWJ(現代)のみを対象に、時代別に集計した結果を表示

cond_8

詳しくは検索結果の見かたで解説します。

検索対象は上記(1)~(3)以外に、「検索対象を設定する」ボタンから下図のようにユーザが自由に設定することもできます。
詳しくは応用編:検索対象を設定するを参照してください。

adv_11



検索結果の見かた >

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

lrw

blank_title

unidic_btn

chamame_btn

trycopus_title

syonagon_btn

chunagon_btn