svetohod
Новичок
Здравствуйте!
Есть идея, но не хватает собственных мозгов для ее реализации. По сему обращаюсь к сообществу за помощью.
Первая задача сводится к тому, чтобы во входной строке распознать текст. Т.е. произвести анализ строки, а на выходе получить набор найденных паттернов (слово, точка, пробел, красная строка, телефон, и т.п.). Но есть ряд сложностей.
Во-первых, для паттерна 'слово' словарь слов, в потенции, будет составлять более 3 млн. слов.
Во-вторых, текст может содержать ошибки (опечатки), что делает невозможным прямой поиск слов, а требуется, как это называется, 'нечеткий' поиск.
В-третьих, все это должно работать при помещении всего словаря в оперативную память (от этого условия можно отказаться, если появится лучший кандидат).
В-четвертых, вариантов решения может быть тьма, отсюда проблема выбора.
По каждому пункту я пытался что-то придумать, и даже были всякие экзотические решения (например, сжатие словаря размером 37МБ в 12МБ и помещение в ОП). Но потом я понял, что все-таки я не программист.
Сразу говорю, это не 'задание для приема на работу'. Собственная инициатива, для создания общественно полезной вещи, т.е. не только для себя. Напишите, что еще требует уточнения.
Есть идея, но не хватает собственных мозгов для ее реализации. По сему обращаюсь к сообществу за помощью.
Первая задача сводится к тому, чтобы во входной строке распознать текст. Т.е. произвести анализ строки, а на выходе получить набор найденных паттернов (слово, точка, пробел, красная строка, телефон, и т.п.). Но есть ряд сложностей.
Во-первых, для паттерна 'слово' словарь слов, в потенции, будет составлять более 3 млн. слов.
Во-вторых, текст может содержать ошибки (опечатки), что делает невозможным прямой поиск слов, а требуется, как это называется, 'нечеткий' поиск.
В-третьих, все это должно работать при помещении всего словаря в оперативную память (от этого условия можно отказаться, если появится лучший кандидат).
В-четвертых, вариантов решения может быть тьма, отсюда проблема выбора.
По каждому пункту я пытался что-то придумать, и даже были всякие экзотические решения (например, сжатие словаря размером 37МБ в 12МБ и помещение в ОП). Но потом я понял, что все-таки я не программист.
Сразу говорю, это не 'задание для приема на работу'. Собственная инициатива, для создания общественно полезной вещи, т.е. не только для себя. Напишите, что еще требует уточнения.
Последнее редактирование: