国立国語研究所
 
 

UniDicとは ABOUT

  • UniDicは日本語テキストに形態論情報を付与するための電子化辞書です。
  • UniDicは国立国語研究所のコーパスの構築に利用されています。
  • 形態素解析辞書としてのUniDic(unidic-mecab)は形態素解析器MeCabの辞書として利用できます。

UniDicの特徴 FEATURE

  • 国立国語研究所で規定した「短単位」という揺れの少ない斉一な単位で設計されています。
  • 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。
  • 語種をはじめとする言語研究に有用な情報を付与することができます。
  • アクセントや音変化の情報を付与することができ、音声処理の研究に利用することができます(現代語用のみ)。

言語資源としてのXML版UniDic

形態素解析辞書とは別に,言語資源として使いやすいXML形式にまとめたUniDicの公開を予定しています。(近日公開)

歴史的資料を対象としたUniDic

古典文学作品などの古い時代の日本語テキストを対象としたUniDic公開しています。これらのUniDicは「日本語歴史コーパス」等の構築に利用されています。

  • 中古和文UniDicは、UniDic(現代語版)をもとにして平安時代の和文系資料(仮名文学作品)を解析できるようにした形態素解析辞書です。
  • 近代文語UniDicは、UniDic(現代語版)をもとにして明治時代の文語論説文を解析できるようにした形態素解析辞書です。

ダウンロードページ

形態素解析辞書UniDic(unidic-mecab、現代語用)

XML版UniDic(準備中)

歴史的資料を対象としたUniDic

ライセンス

形態素解析辞書としてのUniDic(unidic-mecab)は、Ver.2.x以降、完全なフリーソフトウェアになりました。GPL/LGPL/BSD Licenseのトリプルライセンスです。
それ以外のUniDicのライセンスについては、各ダウンロードページの説明を御覧ください。

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。