Bio-Crawlerへようこそ

Bio-Crawlerとは何か

Bio-Crawlerは、バイオ関連の研究用Webページの検索を専門に扱う検索エンジンです。

現在インターネットでは、多くのWebページが公開され、それを検索するための検索エンジンが開発され、紹介されています。しかし、一般のサーチエンジンを使って研究用Webページを検索しようとして、研究に関係ないWebページが多く出てきてこまったことはありませんか? また、あるはずなのに、そのページが出てこないということはありませんか?

バイオ関連の研究用Webページのみを収集し、検索対象をバイオ関連とすることで、この状況を解決できるのではないか!との発想で、Bio-Crawlerの開発を思い立ちました。

現状で可能な検索

データ収集タイプ:Bio-Crawler

データ収集タイプは、生物系のWebページのみを対象に選択的にデータ収集を行うロボットです。一般のサーチエンジンは広く様々なデータを集めているためにノイズが多く、対象が多すぎて全部を拾えていない可能性もあるわけです。

現在、Bio-Crawlerでは、以下の検索ができます。URLを指定した検索ができるのが特徴です。

英語検索ページ

  1. search_e0.html カテゴリ指定無し
  2. search_e1.html 分類によりカテゴリ分け
  3. search_e2.html サイト名によりカテゴリ分け
  4. search_e3.html URLによりカテゴリ分け
  5. search_e4.html 分類/サイト名によりカテゴリ分け

日本語検索ページ

  1. search_j0.html カテゴリ指定無し
  2. search_j1.html 分類によりカテゴリ分け
  3. search_j2.html サイト名によりカテゴリ分け
  4. search_j3.html URLによりカテゴリ分け
  5. search_j4.html 分類/サイト名によりカテゴリ分け

まだ、試験をはじめたばかりなので、収集しているサイトの数は多くありません。新しいURLを収集し検索対象としたい場合は、support@dna.affrc.go.jpまで御連絡ください。御希望にそえるよう頑張ります。

現在の収集対象のサイトについては以下にまとめてあります。
http://bio-crawler.dna.affrc.go.jp/search/urllist_j.html

ロボットによる自動収集を拒否しているサイトもありますが、Bio関係専用のサーチエンジンであることを先方に伝え、収集を許可してくれるよう交渉してみます。

すでに収集対象となっているサイトのデータの更新のタイミング(収集をかける周期)は、現在のところほぼ2カ月周期で、手動で起動をかけています。データが古い等、お気づきの点がありましたら御連絡ください。

メタ検索タイプ:Bio-MetaSearch

メタ検索タイプは、自前でデータ収集するのではなく、一般で運営されている複数のサーチエンジンに同時に検索をかけ、結果を統合して出力します。一般のサーチエンジンがデータの中から、生物系の情報を抽出しようという試みです。

メタ検索を行うとき、URL絞込機能を持った検索エンジン(goo,infoseek) に対しては複数のURLで絞り込みをかけれるようにし、URL絞り込み機能を持たない検索エンジン(ODIN,TITAN,...etc) に対してURLで絞り込みをかけれるようにしています。

googleも対象に入っていますし、自ら提供しているbio-crawler組み入れようとしています。

で、ほんと試験段階ですが、以下のURLで使えるようになっています。

http://bio-crawler.dna.affrc.go.jp/metasearch/

なお、Bio-MetaSearchの開発にあたり、複数のサーチエンジンに同時に検索をかけるメタサーチの基本部分について、東北大学の白鳥研の皆様から一般には公開されていないソースの提供を受けています。この場をかりてお礼申し上げます。

白鳥研木原氏メタ検索のページは以下です。
http://www.shiratori.riec.tohoku.ac.jp/‾kihara/metasearch.html

これまでの研究と今後の計画

なぜ、このようなサーチエンジンを計画したかについては、以下をごらんください。

「生物系Webページデータ収集ロボットと検索エンジン」に関しては、以下の成果報告を提出しています。

  1. 平成10年度研究成果報告(単年度研究成果)(1999.02.25)
    http://www.dna.affrc.go.jp/‾ugawa/19990225/2-2H-10a.html
  2. 平成10年度調査研究報告書(1999.02.25)
    http://www.dna.affrc.go.jp/‾ugawa/19990225/2-2H-10b.html
  3. 平成9年度研究成果報告(単年度研究成果)(1998.03.13)
    http://www.dna.affrc.go.jp/‾ugawa/19980313/
  4. 平成9年度調査研究報告書(1998.03.25)
    http://www.dna.affrc.go.jp/‾ugawa/19980325/

この研究の目的は、試験的なロボットを試作し、これが実用になるかどうかチェックをすることにあります。もし、これが実用になるのであれば、本格的な予算をつけて、公的機関がこれをやる必要があると考えています。同様の方法が、バイオ以外の分野でも適用できたらいいと思っています。

参照したらよいURL

  1. 浅井 勇夫氏「検索デスク」
    http://www.bekkoame.or.jp/‾asaisan/
  2. 清水 奨氏「日本の Search Engine のリスト」
    http://www.ingrid.org/w3conf-bof/search.html
  3. 山名 早人氏「WWW情報検索サービスの動向」
    http://www.etl.go.jp/‾yamana/Research/WWW/survey.html
  4. 山名 早人氏 「分散型WWWロボットによるWWW情報収集」
    http://www.etl.go.jp/‾yamana/Publications/ABST/DEWS98/24.htm
  5. Martijn Koster氏(津村一昌氏訳)「WWWロボットFAQ」
    http://fml.ec.tmit.ac.jp/robofaq-j.html
  6. 野崎哲也氏、北村泰彦氏「MetaCommander Manual」
    http://nancy.kdel.info.eng.osaka-cu.ac.jp/MetaCommander/manual.html
  7. 本研究に関係するパブリックディスカッショングループ
    news://news.dna.affrc.go.jp/dna.ml.bc

助成金等

このサーバは、農林水産省農業生物資源研究所遺伝資源第二部DNA管理情報科の経常研究費を使用してレンタル、科学技術庁の科学技術振興費知的基盤「生物系研究資材のデータベース化及びネットワークシステム構築のための基盤的研究開発」の予算を使用してサーバソフトウエアの購入、データ収集と検索用ソフトウエアの開発を行っています。

連絡先

鵜川義弘(うがわよしひろ)
〒305−8602茨城県つくば市観音台2−1−2
農林水産省農業生物資源研究所 遺伝資源第二部DNA管理情報科
データ収集型ロボットについては、bc-admin@bio-crawler.affrc.go.jpに、
メタ検索検索ロボットについては、meta-admin@bio-crawler.affrc.go.jp
に御連絡ください。
御意見、御希望をお待ちしています。