SaNeK
Новичок
RegExp'ы и "правильный" разбор html
Всем привет. Заранее извиняюсь, если вопрос такой уже поднимался - потыкался в поиск и не нашел.
Что есть: html-страница. В ней какая-то таблица. И ячейка с вида <td class="body">. Причем состав параметров этой ячейки может меняться (т.е. <td width="10" class="body"> или <td height="30" class="body"> и т.д.). Важен в этой ячеке именно css-класс. Причем 100%-уверенность, что такая ячейка на странице ВООБЩЕ ОДНА.
Что надо: выдернуть все, что стоит в этой ячейке, т.е. между тегами <td ... class="body"...></td>
Проблема: в этой ячейке могут быть и таблицы. Т.е. могут быть и </td>, которые закрывают вовсе не ячейку с данными (т.е. <td ... class="body"...>). Например, код такой:
<html>
.....
<td class="body">
<p>какой-то заголовок</p>
<table>
<tr>
<td>Какой-то текст</td>
</tr>
</table>
</td>
Так как мне выдернуть содержимое ячейки <td class="body">?
Подскажите, можно ли это реализовать на регэкспах? Если да, то был бы благодарен за выражение или за ссылки. Заранее благодарю.
Всем привет. Заранее извиняюсь, если вопрос такой уже поднимался - потыкался в поиск и не нашел.
Что есть: html-страница. В ней какая-то таблица. И ячейка с вида <td class="body">. Причем состав параметров этой ячейки может меняться (т.е. <td width="10" class="body"> или <td height="30" class="body"> и т.д.). Важен в этой ячеке именно css-класс. Причем 100%-уверенность, что такая ячейка на странице ВООБЩЕ ОДНА.
Что надо: выдернуть все, что стоит в этой ячейке, т.е. между тегами <td ... class="body"...></td>
Проблема: в этой ячейке могут быть и таблицы. Т.е. могут быть и </td>, которые закрывают вовсе не ячейку с данными (т.е. <td ... class="body"...>). Например, код такой:
<html>
.....
<td class="body">
<p>какой-то заголовок</p>
<table>
<tr>
<td>Какой-то текст</td>
</tr>
</table>
</td>
Так как мне выдернуть содержимое ячейки <td class="body">?
Подскажите, можно ли это реализовать на регэкспах? Если да, то был бы благодарен за выражение или за ссылки. Заранее благодарю.
