概要
S2Robot は Seasar2 を利用したクローラフレームワークです。 S2Robot を利用することで、サイト上に存在する画像の保存や 全文検索のインデックスを生成など、様々な用途に利用可能です。
特徴
- Web およびファイルシステムをクロール可能
- マルチスレッドクローリング
- 巡回する深さ、コンテンツ取得数を指定可能
- 巡回するコンテンツのフィルタリング
- 柔軟に拡張可能なコンテンツ処理ルール
- robots.txt に従うクローリング
- 画像や音声ファイルなどの様々なファイルからも文字列抽出可能