Поиск наиболее схожего со строкой регулярного выражения

.scu · 8 Июл 2011

Есть ли какие-то алгоритмы, которые позволяют определить, какое из регулярных выражений наиболее соответствует строке.

Например есть строка:
project1/dd

Есть несколько регулярок для поиска:
1. ^project([0-9]+)\/([-A-Za-z0-9]+)$
2. ^project([0-9]+)\/(.+)$

задача найти наиболее подходящее, т.е. то которое больше соответствует строке и в котором область поиска уже, в нашем случае это (1).

Есть встроенные ф-ции поиска схожести строк
similar_text
levenshtein

но в случае с регулярками они не всегда отдают корректные ответы, т.к. все же предназначены для простых строк. Кто-нибудь знает какие-то другие алгоритмы для решения данной задачи?

Вурдалак · 8 Июл 2011

Задача очень нетривиальная. Зачем это нужно?

tz-lom · 8 Июл 2011

а почему именно 1я регулярка?
лично я вижу что 1я не подойдёт а 2я подойдёт (на конце строки / )

.scu · 8 Июл 2011

это я опечаталась, при разборе слеша на конце нет, т.е. строка:
project1/dd

нужно для поиска наиболее точного выражения по отношению к строке (URL)

т.е. задача найти наиболее конкретное регулярное выражение относительно текущей строки (выстроить регулярки их по степени общности)

Вурдалак · 8 Июл 2011

А зачем это нужно очень большой секрет, да?

.scu · 8 Июл 2011

давайте не будем развивать полемику об актуальности, все-таки вопрос был не в этом.

хотелось бы услышать ответы тех, у кого есть какие-либо идеи по решению задачи

Вурдалак · 8 Июл 2011

А разве видны какие-то предпосылки для полемики? Вы стесняетесь назвать исходную задачу, да? Тогда извините.

tz-lom · 8 Июл 2011

в текущей формулировке решение задачи это написание своего парсера регулярок, который бы анализировал диапазон значений
задача это большая и сложная, поэтому и предлагают поделиться зачем такое требуется, возможно существует неочевидный, но простой способ достичь желаемого

.scu · 8 Июл 2011

К сожалению, отказаться от задачи (т.е. изменить исходные данные и необходимость получить соответствующий результат) не представляется возможным.

Если никто в подобной задачей не сталкивался и не встречался с подобной алгоритмикой, тогда вопрос снимаю, просто думала, что, возможно, существуют уже подобные решения.

MiksIr · 8 Июл 2011

.scu написал(а):
давайте не будем развивать полемику об актуальности, все-таки вопрос был не в этом.

хотелось бы услышать ответы тех, у кого есть какие-либо идеи по решению задачи

Идеи? Парсите регулярку, назначаете различным метасимволам и классам различные веса, модифицируете эти веса на основе квантификаторов... и т.п.
Только вот давайте все же разовьем полемику от актуальности, ибо вопрос, по ходу, в неверном подходе к какой-то прикладной задаче.

whirlwind · 9 Июл 2011

Предлагаю все подходящие регулярки сортировать по степени педантичности.

zerkms · 9 Июл 2011

whirlwind
Или вообще - сначала отсортировать, а потом матчить

А если регулярки не приходят извне - то веса можно вообще сразу посчитать ручками и сохранить

varan · 9 Июл 2011

может просто длину регулярок сравнивать? Самая длинная - самая конкретная

tz-lom · 9 Июл 2011

спорное утверждение,в конце концов регулярка эквивалентная точке будет ОЧЕНЬ длинная

Поиск наиболее схожего со строкой регулярного выражения

.scu

Новичок

Вурдалак

Продвинутый новичок

tz-lom

Продвинутый новичок

.scu

Новичок

Вурдалак

Продвинутый новичок

.scu

Новичок

Вурдалак

Продвинутый новичок

tz-lom

Продвинутый новичок

.scu

Новичок

MiksIr

miksir@home:~$

whirlwind

TDD infected, paranoid

zerkms

TDD infected

varan

Б̈́̈̽ͮͣ̈Л̩̲̮̻̤̹͓ДͦЖ̯̙̭̥̑͆А͇̠̱͓͇̾ͨД͙͈̰̳͈͛ͅ

tz-lom

Продвинутый новичок