Обработка страниц в различных кодировках (strpos, substr)

Kotofeich

Новичок
Обработка страниц в различных кодировках (strpos, substr)

Доброе время суток.
Делаю сервис, который считает колличество внешних ссылок на странице и их качество.
Вопрос у меня больше теоретический.
Я знаю, что strpos и substr неверно работают с utf8, и существуют mb_strpos и mb_substr, для работы с конкретной кодировкой. Но как можно автоматически определить кодировку обрабатываемый страницы на сайте?
И возможно ли это? Или существуют универсальные функции, которые будут верно определять позиции в тексте независимо от кодировки?

Нашел как вариант рукописные функции для utf-8 здесь. Но так и не смог толком проверить универсальны ли они для cp1251 и utf8, так как они жрут очень много ресурсов, и даже в локале я не смог их вытянуть для обработки страниц сайтов..

Буду рад любому совету "по делу":)
 

x-yuri

Новичок
если страница из inet'а - смотри заголовок Content-Type. Еще тэг meta можешь проверить
 

SiMM

Новичок
> тэг meta можешь проверить
Но только если кодировка не указана в хидере.
 

Kotofeich

Новичок
Спасибо. Попробую. А еще такая мысль пришла: если страницу перекодировать в cp1251 через iconv, то..
1) utf8 перекодируется нормально. Тут вопросов нет.
2) Если страницу cp1251 перекодировать по правилу utf8->cp1251, то что получится?:) Мне не важна потеря качества текста (пусть буквы станут кракозябрами), важно чтобы один символ воспринимался php-функциями, как один символ при обработке. Сохранится ли число таких символов?:)
 

Kotofeich

Новичок
Что-то у меня текст совсем занулился. Нашел решение тут http://phpclub.ru/faq/encodings/encodings3?v=5ml. Функция для определения кодировки документа. Всем спасибо за помошь, и sorry, за то что не перечитал весь материал на phpclub:)
 

x-yuri

Новичок
по заголовкам определять кодировку, думаю, надежнее
 

Kotofeich

Новичок
оки. Пока точно не знаю как лучше, но о результатах, если интересно, отпишусь после тестов.
 
Сверху