Автоправка текста (правильное форматирование)

jeka!

Просто Member
Автоправка текста (правильное форматирование)

Очень часто случается забивать разные тексты при обновлении сайта и т.п, как правило попадаются случаи где текст сбит в кучу и нет например пробела после запятых и точек, или наоборот пробелы там где не надо.
Я уже умучился самостоятельно править такие тексты, и хочу найти некоторое решение данной задачи.
Может кто встречал, уже написанные скрипты для правильного форматирования текста, подскажите...
Я тут написал небольшую функцию, которая делает это, но не совсем правильно, например если в тексте есть название файла с расширением, то после названия и точки будет ставиться пробел, да и возможно в других случаях не исключены баги, в частности с английским текстом.
[ЦВЕТОМ=darkblue]
function text($string) {
$string = preg_replace(
array("/\r+/","/[\s\t]+/","/([:;\)%\?!\}\],\.])+/","/([\(\{\[])+/","/'/","/(\"[^\"]+\")/","/\s+/"),
array(""," ","\\1 "," \\1","\""," \\1 "," ")," ".$string." ");
$string = preg_replace(
array("/(т\.)\s([дпе])/","/(\")\s([:;\?!,\.])/","/([0-9]+)\s?([\+\*\/\.<>-])\s?([0-9]+)/"),
array("\\1\\2","\\1\\2","\\1\\2\\3"),$string);
return trim($string);
}[/ЦВЕТОМ]
 

nagash

Guest
ты хочешь написать свой анализатор текста?
мне кажется пхп не очень хорош в этом отношении...
 

jeka!

Просто Member
Ну я и справиваю за такую возможность, просто не хотелось бы думать над этим самому, а желательно взять готовый скрипт.
А по поводу ПХП, просто других вариантов не вижу, ведь ставитьб скрипт придется на сервере, да и собственно не думаю что пхп не может с этим справиться, просто возможно придётся писать много регулярок.
 

Фанат

oncle terrible
Команда форума
не уверен, что эту задачу возможно формализовать
 

Popoff

popoff.donetsk.ua
Может кто встречал, уже написанные скрипты для правильного форматирования текста, подскажите...
Встречал :) MS-Word :)
не уверен, что эту задачу возможно формализовать
Можно попытаться найти некоторое приближение решения этой задачи. Наверняка найдутся последовательности, на которых нельзя формально сказать: это должно быть так или иначе: сокращение может оказаться вообще невозможным отличить от предложения. В таком случае можно попытаться воспользоваться словарем. А как быть с расширениями в именах файлов, вообще не понятно. Но глюки в любом случае будут, и окончательный результат может быть получен только человеком. Программой - только основное количество исправлений.

Вспомни Word - если включить в нем автоформатирование, то глюки будут 100%. А ведь над ним толпа профессионалов работала...
ты хочешь написать свой анализатор текста?
мне кажется пхп не очень хорош в этом отношении...
Обычно задачи, связанные с анализом текста решаются при помощи конечных автоматов. Есть, конечно, специализированные языки, но сам ПХП в этом отношении такой же, как и все остальные языки программирования.
 
Сверху