Bio-Crawlerへようこそ
Bio-Crawlerは、バイオ関連の研究用Webページの検索を専門に扱う検索エンジンです。現在インターネットでは、多くのWebページが公開され、それを検索するための検索エンジンが開発され、紹介されています。しかし、一般のサーチエンジンを使って研究用Webページを検索しようとして、研究に関係ないWebページが多く出てきてこまったことはありませんか? また、あるはずなのに、そのページが出てこないということはありませんか?
バイオ関連の研究用Webページのみを収集し、検索対象をバイオ関連とすることで、この状況を解決できるのではないか!との発想で、Bio-Crawlerの開発を思い立ちました。
データ収集タイプ:Bio-Crawler
データ収集タイプは、生物系のWebページのみを対象に選択的にデータ収集を行うロボットです。一般のサーチエンジンは広く様々なデータを集めているためにノイズが多く、対象が多すぎて全部を拾えていない可能性もあるわけです。
現在、Bio-Crawlerでは、以下の検索ができます。URLを指定した検索ができるのが特徴です。
英語検索ページ
- search_e0.html カテゴリ指定無し
- search_e1.html 分類によりカテゴリ分け
- search_e2.html サイト名によりカテゴリ分け
- search_e3.html URLによりカテゴリ分け
- search_e4.html 分類/サイト名によりカテゴリ分け
日本語検索ページ
- search_j0.html カテゴリ指定無し
- search_j1.html 分類によりカテゴリ分け
- search_j2.html サイト名によりカテゴリ分け
- search_j3.html URLによりカテゴリ分け
- search_j4.html 分類/サイト名によりカテゴリ分け
まだ、試験をはじめたばかりなので、収集しているサイトの数は多くありません。新しいURLを収集し検索対象としたい場合は、support@dna.affrc.go.jpまで御連絡ください。御希望にそえるよう頑張ります。
現在の収集対象のサイトについては以下にまとめてあります。http://bio-crawler.dna.affrc.go.jp/search/urllist_j.htmlロボットによる自動収集を拒否しているサイトもありますが、Bio関係専用のサーチエンジンであることを先方に伝え、収集を許可してくれるよう交渉してみます。
すでに収集対象となっているサイトのデータの更新のタイミング(収集をかける周期)は、現在のところほぼ2カ月周期で、手動で起動をかけています。データが古い等、お気づきの点がありましたら御連絡ください。
メタ検索タイプ:Bio-MetaSearch
メタ検索タイプは、自前でデータ収集するのではなく、一般で運営されている複数のサーチエンジンに同時に検索をかけ、結果を統合して出力します。一般のサーチエンジンがデータの中から、生物系の情報を抽出しようという試みです。
メタ検索を行うとき、URL絞込機能を持った検索エンジン(goo,infoseek) に対しては複数のURLで絞り込みをかけれるようにし、URL絞り込み機能を持たない検索エンジン(ODIN,TITAN,...etc) に対してURLで絞り込みをかけれるようにしています。googleも対象に入っていますし、自ら提供しているbio-crawler組み入れようとしています。
で、ほんと試験段階ですが、以下のURLで使えるようになっています。
http://bio-crawler.dna.affrc.go.jp/metasearch/なお、Bio-MetaSearchの開発にあたり、複数のサーチエンジンに同時に検索をかけるメタサーチの基本部分について、東北大学の白鳥研の皆様から一般には公開されていないソースの提供を受けています。この場をかりてお礼申し上げます。
白鳥研木原氏メタ検索のページは以下です。
http://www.shiratori.riec.tohoku.ac.jp/‾kihara/metasearch.htmlこれまでの研究と今後の計画
なぜ、このようなサーチエンジンを計画したかについては、以下をごらんください。
- 「生物系Webページデータ収集ロボットと検索エンジン」の構想(1997.7.16) http://www.dna.affrc.go.jp/‾ugawa/19970716/Bio-Info-Robot.html 科学技術振興事業団、農業生物資源研究所
「生物系Webページデータ収集ロボットと検索エンジン」に関しては、以下の成果報告を提出しています。
- 平成10年度研究成果報告(単年度研究成果)(1999.02.25)
http://www.dna.affrc.go.jp/‾ugawa/19990225/2-2H-10a.html- 平成10年度調査研究報告書(1999.02.25)
http://www.dna.affrc.go.jp/‾ugawa/19990225/2-2H-10b.html- 平成9年度研究成果報告(単年度研究成果)(1998.03.13)
http://www.dna.affrc.go.jp/‾ugawa/19980313/- 平成9年度調査研究報告書(1998.03.25)
http://www.dna.affrc.go.jp/‾ugawa/19980325/この研究の目的は、試験的なロボットを試作し、これが実用になるかどうかチェックをすることにあります。もし、これが実用になるのであれば、本格的な予算をつけて、公的機関がこれをやる必要があると考えています。同様の方法が、バイオ以外の分野でも適用できたらいいと思っています。
参照したらよいURL
- 浅井 勇夫氏「検索デスク」
http://www.bekkoame.or.jp/‾asaisan/- 清水 奨氏「日本の Search Engine のリスト」
http://www.ingrid.org/w3conf-bof/search.html- 山名 早人氏「WWW情報検索サービスの動向」
http://www.etl.go.jp/‾yamana/Research/WWW/survey.html- 山名 早人氏 「分散型WWWロボットによるWWW情報収集」
http://www.etl.go.jp/‾yamana/Publications/ABST/DEWS98/24.htm- Martijn Koster氏(津村一昌氏訳)「WWWロボットFAQ」
http://fml.ec.tmit.ac.jp/robofaq-j.html- 野崎哲也氏、北村泰彦氏「MetaCommander Manual」
http://nancy.kdel.info.eng.osaka-cu.ac.jp/MetaCommander/manual.html- 本研究に関係するパブリックディスカッショングループ
news://news.dna.affrc.go.jp/dna.ml.bc助成金等
このサーバは、農林水産省農業生物資源研究所遺伝資源第二部DNA管理情報科の経常研究費を使用してレンタル、科学技術庁の科学技術振興費知的基盤「生物系研究資材のデータベース化及びネットワークシステム構築のための基盤的研究開発」の予算を使用してサーバソフトウエアの購入、データ収集と検索用ソフトウエアの開発を行っています。連絡先
鵜川義弘(うがわよしひろ) 〒305−8602茨城県つくば市観音台2−1−2 農林水産省農業生物資源研究所 遺伝資源第二部DNA管理情報科 データ収集型ロボットについては、bc-admin@bio-crawler.affrc.go.jpに、 メタ検索検索ロボットについては、meta-admin@bio-crawler.affrc.go.jp に御連絡ください。 御意見、御希望をお待ちしています。