>>387
むかしむかしトライデントのパーサーが糞すぎて
IEでしか読めないhtmlが出回りだしたころNNがHTMLの正規化という方法を考案してな。

1)必ず必要なものはパース前に存在すると仮定する
2)パース中に必要になったものはとりあえず付け足してみる
3)エラーでパースを止めずに無視して進める

とりあえずこれやれば多少は読めるよ。
まあこれだけだといわゆるお尻pの処理がめんどくさいんだが。
HotJavaのパーサーですら実装してるからJDKのソース読んでみ。

ちなみにHTMLの正規化という単語はもう死語だからググっても出てこないよ。
実装して当たり前くらいに浸透してるからソース読んだ方が早い。