preg
Новичок
Проверка на дубликаты
Вопщем ищу алгоритм поиска дубликатов в базе.
Спрашивается что может быть проще:
SELECT * FROM news WHERE text = 'news'
ан нет не всё так просто ...
Дело вот в чём:
Имеем исходный кусок HTML текста.
Этот кусок парсим, преобразовываем пути в тегах типа <a>, <img> (сами теги остаются, меняются только пути), очищается от мусора и загоняется в базу... все отличия в текстах - только пути в тегах....
Далее необходимо сравнить исходный текст с текстом в базе, не обращая внимания на изменённые теги ...
конешно можно сделать strip_tags (либо удалить только теги <a> и <img>) и сравнить "чистый" текст, но что будет если текст будет состоять только из тегов <a>, <img> ?
Какие могут быть идеи по этому поводу?
зы: сорри если топиком ошипся...
зызы: Кто нить нает почему не пашет такая фишка
SELECT * FROM news WHERE title = 'text\'n\'text'
тоесть не находит записи с text'n'text
Вопщем ищу алгоритм поиска дубликатов в базе.
Спрашивается что может быть проще:
SELECT * FROM news WHERE text = 'news'
ан нет не всё так просто ...
Дело вот в чём:
Имеем исходный кусок HTML текста.
Этот кусок парсим, преобразовываем пути в тегах типа <a>, <img> (сами теги остаются, меняются только пути), очищается от мусора и загоняется в базу... все отличия в текстах - только пути в тегах....
Далее необходимо сравнить исходный текст с текстом в базе, не обращая внимания на изменённые теги ...
конешно можно сделать strip_tags (либо удалить только теги <a> и <img>) и сравнить "чистый" текст, но что будет если текст будет состоять только из тегов <a>, <img> ?
Какие могут быть идеи по этому поводу?
зы: сорри если топиком ошипся...
зызы: Кто нить нает почему не пашет такая фишка
SELECT * FROM news WHERE title = 'text\'n\'text'
тоесть не находит записи с text'n'text