English 国立国語研究所
 
 

CSJ-RDB Version 2.0における主要な変更点

セグメント・テーブル「談話」の新規導入

  • セグメント・テーブルに、「談話」(談話の開始から終了まで)を対象とする”segDiscourse”を追加しました。
  • ”segDiscourse”の追加に伴い、その他の全てのセグメント・テーブルと談話との間の親子関係テーブルを作成しました。この親子関係テーブルのnthの情報を用いることによって、当該単位の談話中の出現位置(談話の冒頭から数えて何番目の単位か)を知ることができます。

列名の変更

  • 多くのセグメント・テーブルに用いられている、当該単位の発話内容に相当する"OrthographicTranscription"という列名を、"Text" に改めました。

非整列セグメント・テーブルに関する各種変更

  • これまで「サブセグメント・テーブル」と称してきたものを、「非整列セグメント・テーブル」に改めました。
  • 非整列セグメント・テーブルには、長単位形態論情報と短単位形態論情報の2つのテーブルが含まれますが、非整列セグメント・テーブルのファイル名を”subsegSUW”, ”subsegLUW” から ”usegSUWMorph”, ”usegLUWMorph” に改めました。
  • 非整列セグメント・テーブル(時間情報を持たない特殊なセグメント・テーブル)を他のセグメント・テーブル(時間情報を持つ)と同列に扱うために、親のセグメント・テーブルと非整列セグメント間の親子関係テーブル、および非整列セグメント間の親子関係テーブルを新規に追加しました。
  • Version 1.0 のサブセグメント・テーブルでは、セグメント・テーブルの単位ID("LUWID", "SUWID")と同じものを用いていましたが、上の方針に従い、独自の単位ID("LUWMorphID", " SUWMorphID ")を持たせることにしました。また、サブセグメント・テーブルが独自に有していた"nth" と "len"の列は、親子関係テーブルの導入により不要となったため削除しました。

その他の変更

  • 文節係り受けのリンク・テーブルに、「係り受け義務的コメント」の列を追加しました。
 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。