Kotofeich
Новичок
Обработка страниц в различных кодировках (strpos, substr)
Доброе время суток.
Делаю сервис, который считает колличество внешних ссылок на странице и их качество.
Вопрос у меня больше теоретический.
Я знаю, что strpos и substr неверно работают с utf8, и существуют mb_strpos и mb_substr, для работы с конкретной кодировкой. Но как можно автоматически определить кодировку обрабатываемый страницы на сайте?
И возможно ли это? Или существуют универсальные функции, которые будут верно определять позиции в тексте независимо от кодировки?
Нашел как вариант рукописные функции для utf-8 здесь. Но так и не смог толком проверить универсальны ли они для cp1251 и utf8, так как они жрут очень много ресурсов, и даже в локале я не смог их вытянуть для обработки страниц сайтов..
Буду рад любому совету "по делу"
Доброе время суток.
Делаю сервис, который считает колличество внешних ссылок на странице и их качество.
Вопрос у меня больше теоретический.
Я знаю, что strpos и substr неверно работают с utf8, и существуют mb_strpos и mb_substr, для работы с конкретной кодировкой. Но как можно автоматически определить кодировку обрабатываемый страницы на сайте?
И возможно ли это? Или существуют универсальные функции, которые будут верно определять позиции в тексте независимо от кодировки?
Нашел как вариант рукописные функции для utf-8 здесь. Но так и не смог толком проверить универсальны ли они для cp1251 и utf8, так как они жрут очень много ресурсов, и даже в локале я не смог их вытянуть для обработки страниц сайтов..
Буду рад любому совету "по делу"
