English 国立国語研究所
 
 

概要 Introduction to BCCWJ

『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。

すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さら に文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。

『現代日本語書き言葉均衡コーパス』はオンラインおよびDVDにて三通りの方法で公開しています。商業目的での利用をご希望の場合は、個別に検討させていただきますので、下記までご連絡ください。

オンライン版(無償)

少納言

中納言

オフライン版(有料)

DVDデータ

※アカデミック利用または一般利用

 

「少納言」は申し込みの必要はなく、無償で利用できます。 「中納言」とDVD版については利用契約を結んだ上でのご利用になります。 契約期間はオンライン1年、DVD2年で、以後それぞれ自動更新されます。

なお、DVD版は純粋にデータだけを格納したものであり、コーパス検索環境(検索ツール等)は提供しておりませんので、ご注意ください。


現代日本語書き言葉均衡コーパスの特徴を説明します。

対象は出版物として刊行された現代日本語の書き言葉です。

  • 従来から語彙調査の対象となってきた新聞、雑誌に加えて、書籍全般を対象にします。白書や教科書も対象とします。
  • WEB上の文書についてはQ&A掲示板のテキストなど一部を対象とします。
  • 非公開の日記や私信の類は対象としません。
  • 収録対象の刊行年代は、最大30年間(1976~2005)です。メインとなる書籍の場合は、1986から2005年になります。
    これはサンプリングのために必要とされるISBN(国際標準図書番号)が普及するようになった時期を対象としているためです。

上記の対象から無作為にサンプルを抽出します。

サンプル抽出

コーパスの規模は1億語(短単位)です。(空白や記号を除く)

抽出したサンプルには形態素解析(テキストを語に区切って品詞に分類すること)を施し、他の情報とともにXML文書に整形しています。

XMLによる文書構造の記述 / 形態素情報 / XMLによる形態論情報と文書構造情報の統合

コーパスを公開して、どなたにでも利用していただけるようにするため、著作権処理を実施しました。

設計の基本方針

問合せ先:kotonoha@ninjal.ac.jp

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。