English 国立国語研究所
 
 

DVD版公開データ Contents of the DVD version

DVD版は、情報処理技術研究者のように、書き言葉データベース全体を自力で解析したいユーザーのための公開方式です。すべてのデータをDVD(2枚組)の媒体に記録して提供しています。データの検索環境となるソフトウェアの類は提供しておりませんので、ご注意ください。

  • すべてのデータにアクセスできます。
  • データの再配布はできません。
  • データの利用に先だって、著作権保護のために国立国語研究所との間に利用契約を締結していただきます。

sashie1
DVDに収録されるファイルのイメージ(一部)

DVDには以下のデータが収録されています.

disk1

コアデータ(全体の約100分の1) 約9万短単位

  • 短単位(SUW)と長単位(LUW)のコアデータ、統合形式XML(形態論情報付き)コアデータを6種類のレジスターごとに提供。
    総サンプル数1980。

文字ベースXML(C-XML)  約1億短単位(空白・補助記号は除く)

  • 文書構造タグを付与したXML文書データ。固定長(FIXED)と可変長(VARIABLE)に分けて提供。総数172,675サンプル。
  • 固定長サンプルはOW,PB,PN,PM,LBの5種類のレジスター、可変長サンプルは全13種類のレジスターごとに提供。

統合形式XML(M-XML)   約1億短単位(空白・補助記号は除く)

  • 統合形式XML文書(形態論情報付き)を提供(固定長・可変長の区別はない)。全13種類のレジスターごとに提供。

ドキュメント

  • マニュアルおよび書誌情報関連データ(5種類)、著作権注釈情報データの電子文書

disk2

表形式データ

sashie2

短単位(SUW)と長単位(LUW)の表形式データを提供。各13種類のレジスターごとに提供。

 

総語数

 形態論情報付きデータの、サブコーパス別の短単位・長単位の数は表 の通りです(TSV・M-XML共通)。ここでは、コアを別立てし、空白・記号等は除外して計算しています。

サブコーパスごとの短単位・長単位数

サブコーパス名 サンプル数 短単位数 長単位数
出版・新聞 1,133 1,061,729 773,395
出版・新聞コア 340 308,504 224,140
出版・雑誌 1,910 4,242,224 3,320,948
出版・雑誌コア 86 202,268 159,883
出版・書籍 10,034 28,348,233 22,688,202
出版・書籍コア 83 204,050 169,730
図書館・書籍 10,551 30,377,866 25,092,641
特定目的・白書 1,438 4,685,801 2970,971
特定目的・白書コア 62 197,011 129,646
特定目的・ベストセラー 1,390 3,742,261 3,185,745
特定目的・知恵袋 90,507 10,162,945 8,534,840
特定目的・知恵袋コア 938 93,932 78,770
特定目的・ブログ 52,209 10,101,397 8,210,312
特定目的・ブログコア 471 92,746 75,242
特定目的・法律 346 1,079,146 706,313
特定目的・国会会議録 159 5,102,469 4,007,842
特定目的・広報紙 354 3,755,161 2,308,450
特定目的・教科書 412 928,448 746,170
特定目的・韻文 252 225,273 202,425
合計 172,675 104,911,464 83,585,665

本文に関する注意事項

 形態論情報付きデータはBCCWJサンプルの本文テキストに対して情報を付与したものですが、形態論情報を付与する前に、数字を解析しやすい表記に変換する処理(numTrans)を行っています。この処理で、たとえば次の例は下段のように変換されます。

2011年に完成した
    ↓
<NumTrans originalText="2011" >二千十一</NumTrans>年に完成した

これにより「2011年」が「2」「0」「1」「1」「年」(ニレイイチイチネン)ではなく、「二千」「十」「一」「年」(ニセンジュウイチネン)と解析されるようになっています。変換前の文字列の情報は別途保持されています。
また、分数が現れる箇所では、読み進める順にあわせて順序を入れ替える処理を行っています。

50/45
  ↓
<fraction>
<denominator><NumTrans originalText="45">四十五</NumTrans></denominator>
<vinculum><NumTrans originalText="/">分</NumTrans></vinculum>
<numerator><NumTrans originalText="50">五十</NumTrans></numerator>
</fraction>

 このような処理が行われているため、形態論情報が付与された文字列を組み上げたテキストは、文字ベースのXML(C-XML)から抜き出したテキストとは一致しません。ただし、TSV・M-XMLの両形式とも、C-XMLと同じテキストを取り出すことができるようになっています。

形態論情報付きデータでは、元の文字列を「原文文字列(originalText)」、変換後の文字列(形態素解析の対象となった表層形)を「出現書字形(orthToken)」と呼んで区別しています。

なお、この数字変換処理は、出現した文字列にもとづいて自動で行われているため、手作業で修正が施されているコアデータ以外のサンプルでは変換を誤っている可能性があります。

※参照:C-XML詳細

形態論情報に関する注意事項

 短単位・長単位の形態論情報は、TSV・M-XMLの両形式とも同じ内容が付与されており、同一部分の短単位・長単位が異なって解析されていることはありません。

短単位は、全体をUniDicによって解析した結果に対して部分的に人手による修正を施したものです。単一バージョンのUniDicで解析した結果そのままではないため、BCCWJのテキストとUniDicを用いたとしても同一の内容を自動的に作成することはできません。長単位も同様です。

すべての形態論情報は、冗長となることを恐れず、必要と考えられるすべての情報をテキストで保持しています。短単位の形態論情報は、原則としてUniDicの辞書見出しと対応づけることができるためIDのみで表現することも可能だが、あえてこの方法は採っていません。

なお、TSV・M-XMLの両形式とも、書誌情報は含んでいないので、必要な場合にはサンプルIDを元に別途取得する必要があります。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。