簡単だよ


インスペクターを使ってブラウザとサーバーの通信内容を分析する

分析結果を応用して目的のサイトを巡回して、生のコンテンツを収集するクローリングプログラムを作る

収集したコンテンツから装飾などを取り除き、必要なデータ部分のみを抽出するスクレイピングプログラムを作る

抽出したデータを加工しRDBやドキュメントストアに保存して、データを再利用しやすくするインデクシングプログラムを作る

クローリング、スクレイピング、インデクシングの実行をスケジューリングするプログラムを作ってサービスに登録する

検索、統計計算、レポート作成など、インデクシングしたデータを活用するプログラムを作って、自分で使ったり、社内に配布したりする

対象のサイトの仕様変更やクローリング拒否の兆候を監視して、動きがあれば迅速に対応する


こういう基本的な部分は言語は関係ない