国立国語研究所
 
 

クローラの運用について CRAWLER

クローラについて

クローラとはウェブ上を自動的に巡回しウェブページを収集するプログラムの一種です。
国立国語研究所 コーパス開発センターでは、国語研日本語ウェブコーパス(旧名称:超大規模コーパス)(テキストの集積)を構築するためにクローラを運用しております。収集したページは研究目的以外では利用いたしません。

我々はクローラが収集先ホストに迷惑をかけないよう細心の注意を払って運用をしております。 万が一クローラの動作に問題がありました場合には、下記の連絡先にご連絡をいただければ直ちに収集を停止するなどの対処を行います。

収集拒否方法

<meta> タグを利用する

クローラは <meta>タグというタグがあった場合、nofollow(リンク解析を行わない)、noindex(このページを破棄する)という動作をします。
国語研が運用するクローラはこの規則に従っています。

robots.txt に書く

国語研が運用するクローラはrobots.txtの規約に従って、次のようなシーケンスを見付けると、そのパスの下はアクセスしません。

Ex:
User-agent: *
Disallow: /cgi-bin
User-agent: Heritrix
Disallow: /

上記の方法でもアクセスが停止しない場合

 

上記の方法をとっても Heritrix によるアクセスが停止しない場合はご連絡ください。 直ちに収集を停止するなどの対処を致します。

収集ポリシーについて

接続先ホストへ過度な負荷はおかけしません。

ウェブホストにかかる負担を軽減するため、クローリング対象ホストに対して時間あたりの接続数を監視し、過度な接続を行なわないようにしております。この制限は、1つのホストが複数のIPアドレス/ホスト名を使用しても、IPアドレスおよびホスト名で個別に設定してスケジュールを制御しております。

robots.txtファイルの記述内容を遵守します。

Heritrix はrobots.txtファイルの記述内容を解析し、ホスト側で設定したアクセス制限を遵守いたします。 また,robots.txtファイルにCrawl-Delayの設定がなされている場合、Crawl-Delayで指定された値とクローラに設定された最低アクセス間隔時間のうち大きい方の値を用いてアクセスをおこないます。

アクセス停止の申し出があったホストに対してはアクセスしません。

アクセス停止のご連絡をいただいたホストやIPアドレスに関してはそれ以降アクセスを行わないように設定致します。

ページの収集目的

収集されたウェブページは以下の目的で利用されます

  • 国語辞書の語義記述のための用例調査
  • 日本語の運用実態の調査研究
  • 機械学習に基づく言語解析器の開発
  • ウェブページの収集方法の調査研究

クローラのIP address

210.172.4.123


国立国語研究所 コーパス開発センター
『国語研日本語ウェブコーパス』開発プロジェクト

    

問合せ先: ninjal-crawl at ninjal.ac.jp

お詫び

"User Agent"にクローラの運用について英語版ページの URL を配信しておりましたが、2014年4月4日以前に我々が運用しておりましたクローラにつきまして、配信すべき URL の誤りがありました。 "http://www.ninjal.ac.jp/corpus_center/ulc/crawl-en" を表示しておりましたが、正しくは "http://www.ninjal.ac.jp/corpus_center/ulc/crawl-en.html"でした。

今後は二度とこのようなミスの無いよう、細心の注意をはらう所存でございます。何卒ご容赦のほどお願い申し上げます。

また、ご指摘いただきました全ての方にこの場をお借りして感謝の意を表します。誠にありがとうございました。

2016年1月7日以降 URL 変更により "https://pj.ninjal.ac.jp/corpus_center/nwjc/crawl-en.html"に変更いたしました。

We have set wrong URLs in the "User Agent" (UA) string our crawler until 4th April 2014. The old setting state the wrong URL . We apologize for this, and we will try our best not to repeat such an incident.

Our sincerest apologies for the inconvenience caused.

 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。