About

ドキュメント

各種設定

Built by Maven

概要

S2Robot は Seasar2 を利用したクローラフレームワークです。 S2Robot を利用することで、サイト上に存在する画像の保存や 全文検索のインデックスを生成など、様々な用途に利用可能です。

特徴

  • Web およびファイルシステムをクロール可能
  • マルチスレッドクローリング
  • 巡回する深さ、コンテンツ取得数を指定可能
  • 巡回するコンテンツのフィルタリング
  • 柔軟に拡張可能なコンテンツ処理ルール
  • robots.txt に従うクローリング
  • 画像や音声ファイルなどの様々なファイルからも文字列抽出可能