SeaGull
Junior Member
Защита баз данных сайта от парсинга web-страниц
Имеется сайт с вполне уникальной базой данных узкоспециализированной тематики. В основном - текстовые поля. База кропотливо собиралась, проверялась и корректировалась авторами проекта 7 лет.
На днях поступило "предложение" он некоего стартапа "по-дружески" поделиться базой. В ответ на отказ, последовал недвусмысленный намек на то, что выкачать базу с сайта, в принципе, труда не составляет...
Выкачать её действительно не составляет никакого труда, поскольку основным разделом сайта является, собственно, общедоступный поиск по этой базе. При соответствующих настройках поиска, можно получить цепочку стандартных HTML-страниц, отпарсив которые, получаем полную базу в чистом виде.
Отдавать многолетний труд без боя не хочется, поэтому хотел узнать у сообщества: может быть существуют какие-то алгоритмы, способные если не пресечь, то хотя бы изрядно затруднить автоматическое вытаскивание данных из web-страниц ? При этом, естественно, в браузере у пользователя всё должно читаться без проблем.
Экстрим в виде вывода данных в графике не рассматривал - пользователей жалко
Сходу на ум приходят только JavaScript-функции, которые по запутанным алгоритмам буду расшифровывать в браузере выдаваемый из базы зашифрованный при генерации страницы текст. Алгоритм шифрования на разных страницах можно случайным образом менять. Вроде, это должно изрядно затруднить тупой парсинг…
Это пока только общая идея - сами алгоритмы функций не продумывал, да и вряд ли мой "beautiful mind" выдаст что-то сильно более серьезное, чем разные способы подмены и перестановки порядка букв.
Может быть кто-то уже озадачивался схожей проблемой и/или имеются состоявшиеся алгоритмы и подходы к максимальному усложнению парсинга web-страниц ?
Буду благодарен за любые идеи.
Имеется сайт с вполне уникальной базой данных узкоспециализированной тематики. В основном - текстовые поля. База кропотливо собиралась, проверялась и корректировалась авторами проекта 7 лет.
На днях поступило "предложение" он некоего стартапа "по-дружески" поделиться базой. В ответ на отказ, последовал недвусмысленный намек на то, что выкачать базу с сайта, в принципе, труда не составляет...
Выкачать её действительно не составляет никакого труда, поскольку основным разделом сайта является, собственно, общедоступный поиск по этой базе. При соответствующих настройках поиска, можно получить цепочку стандартных HTML-страниц, отпарсив которые, получаем полную базу в чистом виде.
Отдавать многолетний труд без боя не хочется, поэтому хотел узнать у сообщества: может быть существуют какие-то алгоритмы, способные если не пресечь, то хотя бы изрядно затруднить автоматическое вытаскивание данных из web-страниц ? При этом, естественно, в браузере у пользователя всё должно читаться без проблем.
Экстрим в виде вывода данных в графике не рассматривал - пользователей жалко
Сходу на ум приходят только JavaScript-функции, которые по запутанным алгоритмам буду расшифровывать в браузере выдаваемый из базы зашифрованный при генерации страницы текст. Алгоритм шифрования на разных страницах можно случайным образом менять. Вроде, это должно изрядно затруднить тупой парсинг…
Это пока только общая идея - сами алгоритмы функций не продумывал, да и вряд ли мой "beautiful mind" выдаст что-то сильно более серьезное, чем разные способы подмены и перестановки порядка букв.
Может быть кто-то уже озадачивался схожей проблемой и/или имеются состоявшиеся алгоритмы и подходы к максимальному усложнению парсинга web-страниц ?
Буду благодарен за любые идеи.