HTML в текст

Статус
В этой теме нельзя размещать новые ответы.

analitic

Новичок
HTML в текст

Я новичек в PHP.
Подскажите возможно какой то библиотекой можно перевести HTML страницу в чистый текст?

Нужна следующая функция
string HTML2TXT(string)

на входе - странице
на выходе Unicode текст

strip_tags - просто удаляет теги, а нужно, чтобы была полноценная обработка.

Например чтобы HTML строка вида:
PHP:
Новость появилась у нас - ура товарищи
Превращалась в юникод текст:
Новость появилась у нас - ура товарищи

Чтобы удалялись скрипты если они есть, и т.д.
Т.е. полноценный парсер HTML.
 

Фанат

oncle terrible
Команда форума
может быть, тебе нужна функция перекодировки?
 

analitic

Новичок
Автор оригинала: Фанат
может быть, тебе нужна функция перекодировки?
В некотором роде да - функция перекодировки - HTML в текст.
Только "умная" функция. Понимающая возможные ньюансы HTML, а не просто убирающая теги.
 

SiMM

Новичок
> Понимающая возможные ньюансы HTML, а не просто убирающая теги.
Какие ньюансы? Какие тэги? В приведённом выше примере вообще нет ни одного тэга.
 

Фанат

oncle terrible
Команда форума
нет, недостаточно.
ему нужна функция из разряда "дайте попить, а то так есть хочется, аж переночевать негде".

в принципе - имеет право.
пусть ждёт такую функцию.
 

analitic

Новичок
Неужели не понятна постановка задачи?
На входе - оригинал страницы: www.yandex.ru
На выходе что-то типа:



Сделать Яндекс стартовой страницей
Заведите себе почту на Яндексе
Войти в почту:

Яндекс.Города: Екатеринбург - лидер по итогам 2005 Яндекс.Маркет
Яндекс.Маркет. Выбрать ноутбук совсем не трудно
Новости06:57


1. Премьер Дании еще раз извинился за карикатуры на пророка Мухаммеда
2. В больницах Владикавказа находятся 15 раненых от взрывов
3. Сбежавшему от <дедов> воину ампутировали ноги (Хабаровский край)
4. Любителям <КАМАСУТРЫ> грозит смерть. DOCументальная. Обобщение
5. Украинская газовая пятилетка



Яндекс


расширенный поиск
Пример: организация выделенных каналов в Москве Расширенный поиск
Везде Каталог Новости Маркет АдресаНовое Словари Картинки Все службы:



Hi-Tech
компьютеры, интернет, мобильники
Работа
вакансии, трудоустройство
Учеба
вузы, школа, рефераты, науки
Справки
адреса, транспорт, словари
Общество
власть, законы, религия



Развлечения
игры, юмор, знакомства, гороскопы
Отдых
афиша, туризм, хобби
Культура
mp3, кино, фото, литература
Спорт
футбол, хоккей, автоспорт, спорттовары
СМИ
новости, газеты, ТВ



Маркет
подбор товаров, сравнение цен

Бизнес
финансы, недвижимость, реклама
Дом
семья, здоровье, красота
Авто
продажа, запчасти, клубы
Сайты Греции


Погода: Афины, 3 февраля
Сегодня [Ясно]
Ночью: 6:8
Днём: 13:15 Завтра [Переменная облачность]
Ночью: 7:9
Днём: 14:16
Котировки
USD ЦБ 03.02 28,1901 +0,0859
EUR ЦБ 03.02 33,9944 ?0,1410
Телепрограмма
05:00 Доброе утро, Россия! Россия
06:00 Телеканал <Доброе утро>. Первый
06:00 Сегодня утром. НТВ

*
Почта
*
Народ
*
Лента
*
Карты
*
Открытки
*
Игрушки
*
Деньги
*
WiFi
*
Директ
*
Города

Помощь Зарегистрироваться Настроить вид Яндекса Что еще можно сделать:

Дизайн -
Студия Артемия Лебедева Русская клавиатура
Company · Advertising Поиск по 704 903 214 веб-страницам
c 1997-2006 <Яндекс>
О компании · Статистика · Реклама
Работайте в Яндексе


Чтобы фреймы понимало, спец символы аналогичные таким
&#1053;&#1086 и т.д.

Только не надо предлогать самому изобретать такую функию - нужно готовое решение.
 

analitic

Новичок
Ну вот сразу и воровать.
Нет - просто почтовые сообщения храняться в виде сложных HTML. Нужно их в текст переводить.

Но это все не суть. Просто я новичек, и мне хотелось бы получить инструмент.

Думаю что подобные вещи есть, не хотелось бы изобретать велосипед.

Давате не будем разводить воду. Если знаете похожие решения - пишите, если никто не знает - на нет суда нет - закроем ветку.

PS:
Подпись, как подпись.
 

analitic

Новичок
Ну и так искал :)
Там же сплошь бинарники (exe). А нужен php скрипт. Более того есть php скрипты которые это делают - но они платные :(, а хочется нахаляву...

Но видимо не судьба :(
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху