ну я бы начинал очень просто
собрал все варианты форматов, в которых разрабатывается документация
погуглил бы на тему конверторов из одного в другой
выбрал бы один из стандартных форматов для внутреннего испольования, судя по наличию готовых конверторов и универсальности формата
это по сути пачка shell скриптов - wget, diff, rsync итд
а дальше уже можно писать генераторы