Обработка страниц в различных кодировках (strpos, substr)

Kotofeich · 3 Фев 2009

Обработка страниц в различных кодировках (strpos, substr)

Доброе время суток.
Делаю сервис, который считает колличество внешних ссылок на странице и их качество.
Вопрос у меня больше теоретический.
Я знаю, что strpos и substr неверно работают с utf8, и существуют mb_strpos и mb_substr, для работы с конкретной кодировкой. Но как можно автоматически определить кодировку обрабатываемый страницы на сайте?
И возможно ли это? Или существуют универсальные функции, которые будут верно определять позиции в тексте независимо от кодировки?

Нашел как вариант рукописные функции для utf-8 здесь. Но так и не смог толком проверить универсальны ли они для cp1251 и utf8, так как они жрут очень много ресурсов, и даже в локале я не смог их вытянуть для обработки страниц сайтов..

Буду рад любому совету "по делу"

x-yuri · 3 Фев 2009

если страница из inet'а - смотри заголовок Content-Type. Еще тэг meta можешь проверить

SiMM · 3 Фев 2009

> тэг meta можешь проверить
Но только если кодировка не указана в хидере.

Kotofeich · 3 Фев 2009

Спасибо. Попробую. А еще такая мысль пришла: если страницу перекодировать в cp1251 через iconv, то..
1) utf8 перекодируется нормально. Тут вопросов нет.
2) Если страницу cp1251 перекодировать по правилу utf8->cp1251, то что получится?

Мне не важна потеря качества текста (пусть буквы станут кракозябрами), важно чтобы один символ воспринимался php-функциями, как один символ при обработке. Сохранится ли число таких символов?

x-yuri · 3 Фев 2009

Если страницу cp1251 перекодировать по правилу utf8->cp1251, то что получится?

попробуй, поделишься потом впечатлениями ;-)

Kotofeich · 3 Фев 2009

Что-то у меня текст совсем занулился. Нашел решение тут http://phpclub.ru/faq/encodings/encodings3?v=5ml. Функция для определения кодировки документа. Всем спасибо за помошь, и sorry, за то что не перечитал весь материал на phpclub

x-yuri · 3 Фев 2009

по заголовкам определять кодировку, думаю, надежнее

Kotofeich · 4 Фев 2009

оки. Пока точно не знаю как лучше, но о результатах, если интересно, отпишусь после тестов.

Обработка страниц в различных кодировках (strpos, substr)

Kotofeich

Новичок

x-yuri

Новичок

SiMM

Новичок

Kotofeich

Новичок

x-yuri

Новичок

Kotofeich

Новичок

x-yuri

Новичок

Kotofeich

Новичок