English 国立国語研究所
 
 

XMLによる文書構造の記述 XML Documents

『現代日本語書き言葉均衡コーパス』に収録するテキストは、様々な検索が可能なように以下のような情報を付与します。

  • 書誌情報

    出典(書名、著者名、出版社、出版年、ジャンル)に関する情報
  • 文字情報

    ルビ、原文の誤植、JIS外字、数式等の上付き・下付き文字などの情報
  • 文書構造情報

    言語的な階層構造(記事、段落、文、見出し、引用、箇条書きなど)に関する情報
  • サンプリング情報

    固定長サンプルにおけるサンプル範囲の情報

XMLによる記述

以上のような情報をXMLという方法で記述します。例えば、次のようなテキストがあるとします。

sashie1

上のテキストは、次のような形式で電子化されます。< >で囲まれた部分をタグと言います。どのような種類のタグをどう設計するかが、コーパスの検索に大きく影響します。

sashie2

タグの種類と意味

現代日本語書き言葉均衡コーパスで使用するタグの一部を示します。

 タグ名内容
サンプル sample サンプリングによって1サンプルとされた文章の範囲
sampling サンプリングポイントに関する情報
階層構造
(文書構造)
article 同一著者による、同一テーマのひとまとまりの文章
title ある範囲の文章の内容を代表する記述。章の題、新聞の見出しなど
cluster title 要素がまとめる文章の範囲
list 箇条書きや名詞句の羅列など、列挙された要素
paragraph 段落に相当する文の集まり
sentence 文に相当する語の集まり
図 表
(文書構造)
figure 図・表・写真・絵など
caption 図表等についてのタイトルや説明
引 用
(文書構造)
citation 当該 article 要素とは異なる著作物からの引用
speech 発話や心内発話の引用・書き起こし
注 記
(文書構造)
noteBody 脚注、後注など、本文と区別して記述される注記
その他
(文書構造)
abstract article 要素、または cluster 要素の概要に相当する要素
verse 詩、和歌、俳句、歌謡などの韻文
文字・表記 ruby ルビ付き文字
correction 原文の誤植を訂正した文字
missingCharacter 規定の文字集合に含まれない文字 (JIS外字)

文字コード

テキストの電子化に際しては、JISX0213:2004規格(いわゆるJIS 第4水準までの文字)に準拠した文字集合を用います。文字コードは、Unicodeです。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。