English 国立国語研究所
 
 

『日本語話し言葉コーパス』コアRDB版 Version2.0 公開のご案内 

 『日本語話し言葉コーパス』のコア(約45時間、 50万語)を対象としたRDB(以下CSJ-RDB)Version2.0 を公開します。 CSJ-RDBは、CSJ本体のXML文書に含まれる情報を基本としつつ、若干の追加・修正を加えています。詳細は以下をご覧ください。
 なお、CSJ-RDBはCSJ本体をご購入の方を対象に提供します。 CSJ-RDBのみの公開はしておりませんのでご注意ください。

CSJ-RDBの概要

 CSJには、形態論情報、係り受け構造情報、分節音情報、韻律情報など、多様な研究用付加情報(アノテーション)が付されています。これら複数の情報に関わる分析を効率的に行うためには、各種情報を相互に関連付けて表現したデータが必要です。CSJではこれまで、XMLを用いて各種情報を統合的に表現したデータ(CSJ-XML)をユーザに提供してきました。しかし、 CSJ-XMLのデータ構造は複雑で、プログラミングの経験のないユーザには扱いづらいという欠点がありました。
 そこで、CSJ-XMLで表現された情報を中心に、各種情報を相互に関連付けて表現したRDB(以下CSJ-RDB)を作成し、公開することとなりました。RDB(リレーショナルデータベース)とは、相互に関連づけられた複数のテーブルから構成されるデータベースです。個々のデータはテーブル(行と列で構成される表)の形式で表現されるため、XMLと比べて直感的に把握しやすいデータです。また各テーブルは相互に関連付けられているため、ばらばらにデータが提供される場合と異なり、複数の情報に関わる検索も比較的容易に行うことができます。

 なお、今回提供するCSJ-RDBが対象とするのは、特に多種多様な研究用付加情報が付されたCSJのコアと呼ばれるデータ範囲(約45時間、 50万語)です。コアの詳細については、以下の文書を参照してください。

   参照:『日本語話し言葉コーパス』の概観(pdf)

データ表現方式の概要

 CSJ-RDBでは、談話中の要素を記述する複数の単位(セグメント)と、単位間の関係を記述するリンクによって、アノテーションを一般的に表現しています。
   各単位は、図1のように層化されており、単位ごとに別々のテーブルで関連情報が表現されています。このテーブルをセグメント・テーブルと呼びます。また、親子(先祖・子孫)関係にある2つの単位間の対応関係も、それぞれテーブルの形式で表現されています。これを親子関係テーブルと呼びます。

 

セグメント・テーブル

セグメント・テーブルは、図1の各単位ごとに、談話中の要素を記述したテーブルです。すべてのセグメント・テーブルに共通する情報として、
談話ID、各単位のID、単位の開始時間、単位の終了時間、話者ラベル
があります。これらの共通情報に加えて、各単位に固有の情報(例えば短単位であれば品詞情報など)が記されています。図2は、節単位と文節のセグメント・テーブルの例です。

親子関係テーブル

 親子関係テーブルとは、図1 に表された階層関係に従って、単位間の親子関係をID の対で表現したものです。例えば、図2のように、セグメント・テーブルとして「節単位テーブル」とそれに対応する「文節テーブル」があるとします。節単位と文節は親(先祖)と子(子孫)の関係にあるため、両者の間の対応関係を表現した親子関係テーブルが提供されます。

図2 セグメント・テーブル,親子関係テーブルの例

 この親子関係テーブルを用いることによって、例えば、節単位の最後の文節の継続長を取り出したり、10個以上の文節から構成される節単位を取り出す、といった検索ができます。他の単位間の親子関係も同様に記述されているため、例えば節単位の最後の文節の冒頭の短単位が接頭辞のものを抽出する、といった検索もできます。

その他のテーブル

 セグメント・テーブル、親子関係テーブルの他に、非整列セグメントテーブル、リンク・テーブル、メタ情報テーブルなどがあります。

参照:

CSJ-RDBの構成

CSJ-RDBの実装方法・利用方法

 CSJ-RDBはsqliteで実装しています。sqliteは、サーバを必要とせず、単体で利用可能なデータベースエンジンです。
 CSJ-RDBを利用するには、RDBを操作するためのSQL言語を用いて検索文を作成する必要があります。SQL言語は一般のプログラミング言語と比べて習得が容易で、また初学者用にGUI (グラフィックユーザインタフェース)を用いてマウス操作で検索文を作成するためのソフトウェアもあります。
 今後、CSJ-RDBの利用に関する講習会を開催したり、HPで使い方を記した資料を公開していく予定です。講習会等の情報については、以下を参照してください。

参照:

CSJ-RDB講習会

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。