テーブルコーディングのコンテンツ部分の抜き出し
テーブルレイアウトの古いHTMLサイトのコンテンツ部分を抜き出して、CSSレイアウトのサイトやCMSに流し込んだりするとき、困るのがテーブルタグの取り扱いです。
全体のレイアウトがテーブルだけならまだいいんですが、ひどいサイトになると、本文の中の段落がまた一つのテーブルで区切られていたりして、大変なことになっています。
こういう場合に、テーブルタグを消して文章(<p>や<strong>は含めて)を抜き出す方法を考えました。
といっても単に置換するだけなんですが、l秀丸等の正規表現による置換ができるテキストエディターで、
広告
<(/*)t(.*?)>
を消去置換してみてください。
<table width=”80%” border=”0″ cellpadding=”0″ cellspacing=”0″ class=”table”>
といったテーブル開始タグから、<tr></td><tbody>など、テーブル関連の開始タグ、終了タグを全て消すことが出来ます。
まず、大まかなコンテンツ部分はどうにかして抜き出してからやるといいでしょう。(抜き出せなくてもそれなりに役に立つと思います)