『名大会話コーパス』検索システム

更新情報

メタ情報を拡張して『中納言』  で再公開しました(2018,3,18)

『名大会話コーパス』とは

『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」 (平成13年度~15年度 研究代表者 大曽美恵子)の一環として作成された,129会話, 合計約100時間の日本語母語話者同士の雑談を文字化したコーパスです。 現在は国立国語研究所に移管され,文字化テキストなどを公開しています。テキストはこちらのページからダウンロードできます。

◆ コーパスの名称について ◆
本コーパスが国語研究所に移管された際, 一時的に『日本語自然会話書き起こしコーパス』という名称で公開していましたが, 現在では『名大会話コーパス』という名称に戻しています。 同じコーパスですのでご注意ください。


検索システム

本プロジェクトでは,『名大会話コーパス』の文字化テキストに形態論情報を付与した上で,以下の二つの方法で公開しています。

オンラインコーパス検索アプリケーション『中納言』   ※コーパス開発センターと共同して構築
全文検索システム『ひまわり』

検索システム公開に伴うデータ整備の概要

  • 形態論情報は,形態素解析器MeCab(ver.0.98)および形態素解析辞書UniDicを用いて自動で付与しました。また,一部の解析結果に対して人手で修正を行っています。
  • 「F063さん」のように発話中に出現した発話者IDについては,「伏字化人名」という品詞を付与しています。
  • 原資料の個々の会話ファイルの冒頭に記されているメタ情報(収録場所や話者の性別などの情報)は,原則として情報の変更はせず適宜形式を整形した上で,検索結果に出力しています。
  • 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。
  • <笑い>など,原資料に付与されている言語情報以外の要素については,検索対象から除外しています。
  • 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。
  • 原資料には相づちの話者情報は表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。