English 国立国語研究所
 
 

『日本語話し言葉コーパス』第1刷に関する問題点

 『日本語話し言葉コーパス』第1刷に関して判明した問題点を報告しています。第2刷ではこれらの問題点は全て修正されています。

参照:

第2刷における主要な変更点

(公開:2004.06.01: 最終修正2008.05.02)

 

1.DVD-ROMの枚数

『日本語話し言葉コーパス』Volume1の /DOC ディレクトリに格納されている「『日本語話し言葉コーパス』の概観」 (overview.pdf)マニュアルでは、『日本語話し言葉コーパス』はDVD17枚組としていますが(p.18)、実際には18枚組です。

Volume1からVolume17までの内容は上記マニュアルに記載されているとおりですが、 上記マニュアルの執筆後に情報通信研究機構(旧通信総合研究所)で作成された「節単位XML文書」および「文編集データ」と 専用ビューワーをVolume18として公開対象に加えました。Volume18の内容については、同ディスクの /DOC ディレクトリに 格納されている解説文書(cuxml.pdf等)をご参照ください。(2004.06.01)

2.節単位情報の不具合

「『日本語話し言葉コーパス』の概観」マニュアルには、すべての講演(3302ファイル)に対して「節単位情報」を 付与している旨の記述がなされていますが(p.10)、今回お送りした『日本語話し言葉コーパス』では、 XML文書生成時の手違いによって、情報が付与されているのは、コアおよびテストセットに含まれるモノローグ講演( 合計199ファイル)に対してだけとなっております(コアのうち対話と再朗読には付与されていません)。 深くお詫び申しあげます。

*現在修正データを作成中です。追って差し替えデータを公開いたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXMLデータを格納したDVD1枚を添えて出荷しています。

3.節単位情報の不具合によるマニュアルの読み替え(1)

上記2の結果、Volume1の/DATAディレクトリに格納されているtalk_data.datの内容にも修正が必要となりました。 現在、同ファイルの第66フィールドには、節単位データの種別を表す情報として、「自動」ないし「手動」という値が 記入されています。この値が「手動」となっているファイルにだけ節単位情報が付与されていますので、 差し替えデータ公開までの間は、「自動」を「節単位情報なし」、「手動」を「節単位情報あり」と 読み替えていただきますよう、お願いいたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXML文書を格納したDVD1枚を添えて出荷しています。 修正XML文書を利用していただければ上記の読み替えは必要なくなります。

4.節単位情報の不具合よるマニュアルの読み替え(2)

上記2の結果、Volume1の/DOCディレクトリ中の「記録票データ・対話記録票データ・講演者属性データ・ 対話参加講演者の講演一覧の解説」(data_attribute.pdf)マニュアルの節単位情報に関する記述内容(p.6)にも 上記3と同様の読み替えをお願いいたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXML文書を格納したDVD1枚を添えて出荷しています。 修正XML文書を利用していただければ上記の読み替えは必要なくなります。

5.節単位情報マニュアルの誤植

Volume1の/DOCディレクトリ中の「『日本語話し言葉コーパス』における節単位認定」マニュアル(clause.pdf)p.6の 「主題の共有+」の最初の例文に以下の誤植があります。(2004.06.01)

(誤): 私は旅行が大好きで/並列節デ/ + 今までもあちこち行きましたけれども<;P>;/並列節ケレドモ/ ;主題の共有

(正): 私は旅行が大好きで<並列節デ>今までもあちこち行きましたけれども<;P>;/並列節ケレドモ/ +その中で一番楽しかった旅行をこれからお話しいたします<;P>;[文末];主題の共有

6.XML文書におけるエクステンダー記号

X-JToBIで用いられているエクステンダー記号">;"は、XML文書中では記号"]"によって置換されています。 その旨の説明がマニュアルに抜けておりました。なお、この措置はXML文書中では">;"がタグ付のために 利用されることによるものです。(2004.06.01)

*エクステンダーについてはVolume1/DOCの「『日本語話し言葉コーパス』のイントネーションラベリング」 intonation.pdfに説明があります。

7.印象評定データに関する誤植

Volume1の/DOCディレクトリに格納されている「印象評定データの概要」マニュアル(impression.pdf)に誤植がありました。 p.7冒頭の「3.4データファイル」中のデータファイル名が誤っていました。(2004.07.13)

(誤): rating.csv

(正): impression.csv

以下も印象評定データに関する誤植です

impression.pdf,p.2の「2.2.3 段階評定式印象評定項目」の「講演の自発性」に関する記述で 「ただし、記録票Ver.1.0のものでは」のすぐ下の表が誤っています。data_attribute.pdf のp.4の 「2.6.1 講演の自発性」にも同じ誤りがあります。(2004.08.12)

(誤)

1 ほぼすべて自発的
2 多くの部分自発的
4 多くの部分朗読
5 ほぼすべて朗読

(正)

    1 ほぼすべて朗読
    2 多くの部分朗読
    4 多くの部分自発的
    5 ほぼすべて自発的

    8.XML関連スクリプト(XSL)のバグ

    Voumue1の/TOOL/XSLディレクトリに格納されている三つのXML関連スクリプト(XSL)に不具合がありました。 それぞれの修正方法〔(誤)→(正)〕と不具合の内容を以下に記します。(2004.08.16)

    (1) xml2seg.xsl (23行目)
    修正:<xsl:if test="@Channel='L:'"> → <xsl:if test="@Channel='L'">
    不具合:チャンネル識別子のコロンが不要。

    (2) xml2trn.xsl (1行目)
    修正:<;?xml version="1.0" encoding="UTF-8"?> →  <?xml version="1.0" encoding="EUC-JP"?>
    不具合:スクリプト内部で利用されている漢字コードとXML宣言の不一致。

    (3) iputrn2xsl.xsl (1行目)
    修正:<?xml version="1.0" ?> →  <?xml version="1.0" encoding="Shift_JIS"?>
    不具合:スクリプト内部で利用されている漢字コードとXML宣言の不一致。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。