コーパスとしてのウェブテキスト活用シンポジウム

講演者(敬称略)と講演依頼内容(講演タイトルではありません)

  • 前半戦:日本語研究に大規模ウェブテキストデータを扱うためには?
  • 【初級編】ウェブの検索結果を利用する 荻野 綱男(日本大学)
  • 【中級編】ウェブコーパスを利用する 岡 照晃(国立国語研究所)
  • 【上級編】自分でウェブをクロールする 林部 祐太
  • 後半戦:企業は大規模ウェブテキストデータをどのように活用しているか?
  •  不満調査データセットの収集・公開や分析、利用例についてなど 三澤 賢祐Insight Tech
  •  Wikipediaの活用に関する取り組み 山田 育矢Studio Ousia

開催趣旨

ウェブをクロールし、大量のテキストを集め利用することは情報系の分野では既に当たり前の手法となっている。 ただしそれを実践するには、ウェブをクロールするための知識・技術、 そしてクロール及びクロールしたテキストデータを保存しておくサーバ運用のノウハウも不可欠なため、 分野外の、特にコーパスを扱う日本語研究者が、ウェブを対象とした研究を行う際の高いハードルとなっていた。

しかし、近年になって『筑波ウェブコーパス』『国語研日本語ウェブコーパス』といった日本語のウェブテキストコーパスが登場したことにより、 個人がウェブをクロールせずとも、大規模なウェブテキストを日本語研究の対象とすることが可能となった。

半面、"ウェブテキスト"というこれまで日本語研究の分野で積極的に利用されてこなかったデータの中には、 新聞記事や書籍を対象としていた頃には現れなかったような、 さまざまな留意点・注意事項が暗黙的に潜んでいる。

そこで本シンポジウムでは、

1) これからウェブコーパスやウェブ上にあるテキストをコーパスとして利用したい、もしくはすでに利用している研究者、エンジニア、企業関係者を聴衆として招き、

2) ウェブ上のテキストをどのように研究や事業・サービスに導入するのか? or しているのか?

3) またウェブテキストを実際に活用した応用事例・分析方法を講演者らが紹介していく中で、それらを扱う際の留意点・注意事項に関するノウハウを聴衆に提示し、講演者と聴衆の間でのセオリーの共有・確立を図ることを一番の目的としている。

開催案内

  • 日 時:2018年9月6日(木) 13:00~17:00
  • 会 場:国立国語研究所 2階 講堂
         東京都立川市緑町10−2(アクセス

       ■ JR「立川駅」まで: JR中央線「東京駅」から快速で約50分
       ■ JR「立川駅」から:
        ○ 多摩モノレール「立川北駅」乗車(約3分)「高松駅」下車,「高松駅」より 徒歩約7分
        ○ 立川駅北口バスのりば2番から乗車(約5分)「自治大学校・国立国語研究所」下車
        ○ JR「立川駅」より徒歩約20分
  • 参加費:無料
  • 主 催:国立国語研究所 コーパス開発センター

事前参加登録(~8/28(火)23:59(JST))

事前参加登録は以下よりお願いいたします。
登録フォームは言語資源活用ワークショップ2018と共通となっていますので、同時にご応募いただけます。

当日参加も可能ですが、講演スライド公開予定のURLを記載したハンドアウトには数に限りがありますため、先着順の配布となります。
(事前登録された方には、必ず全員に配布いたします)

お問い合わせ

国立国語研究所 コーパス開発センター
言語資源活用WS事務局
E-mail: lrw あっと ninjal.ac.jp

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

lrw

blank_title

unidic_btn

chamame_btn

trycopus_title

syonagon_btn

chunagon_btn