URLから文字列処理して、広告かどうか判定するしかあるまい。
まずはURLを収集。