国立国語研究所
コーパス開発センター

近代語のコーパス 近代語のコーパス

TOP > 明六雑誌コーパス

明六雑誌コーパス

『明六雑誌コーパス』(2012年公開)概要

  •  明治初期の学術啓蒙雑誌『明六雑誌』(1874~1875年,明六社刊)全文の形態論情報(単語情報)付きコーパスです。
  •  記事・引用・文字に関わる情報のほか、文の境界や単語の情報がタグ付けされています。
  •  対象は『明六雑誌』全号の全文です。
  •  総語数:約18万語
  •  著者数:16人

  •    ※ 『明六雑誌コーパス』の詳しい説明は、プロジェクト報告書内の、次の二つの文書を御覧ください。

            ・ 『明六雑誌コーパス』の仕様(pdf)
            ・ 『明六雑誌コーパス』の語彙量(pdf)



利用方法

『明六雑誌コーパス』は、3種類の形式で公開します。以下よりダウンロードしてお使いください。
クリエイティブ・コモンズ・ライセンス ※ このコーパスはクリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 3.0 非移植 (CC BY-NC-ND 3.0)で公開します。

ダウンロード:

  • XMLファイル meiroku_xml.zip (5.3MB)
      本文テキストに、文書構造・形態論・文字・表記に関する情報を付与した形式。コーパスの根幹となるデータ。
  • 形態論情報タブ区切りデータ meiroku_suw.zip (4.6MB)
      上記のXMLファイルから、形態論(単語)情報を抽出して、タブ区切りのデータにしたもの。
      単位は、国立国語研究所で規定する「短単位」に基づく「SUW(short unit word)」。
  • 『ひまわり』用データ meiroku_himawari.zip (17.5MB)
      コーパス検索ツール『ひまわり』用のデータ。
      『ひまわり』Ver.1.5β06以降にインストールすることで、『明六雑誌コーパス』を簡便に使うことができます。
      形態論情報を利用した検索や国立国語研究所の所蔵する原本の画像参照も可能です。

『ひまわり』用データ(meiroku_himawari.zip)の利用方法

  1. 『ひまわり』用データ(meiroku_himawari.zip)をダウンロードしてください。
    ※Windowsをお使いの方は、ダウンロードした meiroku_himawari.zip を右クリックし、[プロパティ] > [全般]でセキュリティのブロックが解除されていることを必ず確認してください。
  2. meiroku_himawari.zipを解凍すると、meiroku_himawariフォルダが現れます。その中に次のファイルがあることを確認してください。
    • Corpora フォルダ ... 『明六雑誌コーパス』データを格納したフォルダ
    • config_meiroku.xml ... 設定ファイル
    • .himawari_package_info ... パッケージインストール設定ファイル
  3. 全文検索システム『ひまわり』のページの説明に従って『ひまわり』Ver.1.5β06以降をインストールしてください。
  4. 『ひまわり』がインストールされているフォルダ内のhimawari.exe(アイコンhimawari_icon.png)をダブルクリックして『ひまわり』を起動してください。[ファイル]>[インストール]を実行し、2.のmeiroku_himawariフォルダを指定してください。以上で、コーパスデータの『ひまわり』へのインストールは終了です。meiroku_himawariフォルダは削除してかまいません。
  5. 『ひまわり』を使ったコーパスの検索方法については、「『ひまわり』を使った『明六雑誌コーパス』の検索方法」(pdf)を参照してください。



更新履歴

  • 2014年10月17日 『ひまわり』用データを『ひまわり』Ver.1.3対応からVer.1.5対応に更新
  • 2013年10月24日 Ver1.1公開
  •    原本画像参照機能の追加
       pbタグ・lbタグの修正

  • 2012年10月31日 Ver1.0公開



『明六雑誌コーパス』についての、お問い合わせ、ご意見などは、以下のアドレスまで電子メールでお寄せください。
k-mail.png