Структурирование данных из таблиц разного формата

chenema

Новичок
Структурирование данных из таблиц разного формата

Возникла необходимость разбирать таблицы различного формата но с одинаковым содержанием.

Сложность заключается в том, что хотя суть таблиц одна и та же (X,Y - параметры, на пересечениях - цены). Но поставщики предоставляют материалы в совершенно разном виде. У кого-то это Excel, Word, У кого то HTML (слава богу PDF пока нет).
Всего около 50 разных вариантов представлений таблиц, причем все таблицы достаточно сложны и объемны.

В связи с этим вопрос, сталкивались ли Вы с подобными задачами разбора таблиц и приведения их одному формату, каково Ваше мнение, можно ли решить эту задачу средствами PHP?

Заранее Благодарен!
 

Oldwin

Новичок
Если известна структура каждого вида файлов, то в чем проблема?
 

chenema

Новичок
Автор оригинала: Oldwin
Если известна структура каждого вида файлов, то в чем проблема?
Безусловно это так. Однако было бы неэффективно писать конвертор под каждый тип, так, как
1. Формат может измениться.
2. Периодически добавляются новые типы таблиц.

В связи с этим мы сейчас ищем возможные решения. Это должен быть либо
1. Максимально универсальный конвертор (который был бы ориентирован не на типы таблиц, а на их содержание, тоесть был бы способен самостоятельно распознавать параметры по X и Y.
2. Обучаемая система, в которой присутствовала бы возможность добавлять типы таблиц жестко привязывая параметры X, Y, но при этом система сама в итоге должна понимать что ей подсовывают.

Раскрывая суть задачи могу сказать, что речь идет о прайс-листах тур операторов.
Например
http://www.labirint.com.ru/russian/foreign/finland/program/helsinki-price.shtml
http://www.space-travel.ru/files/so/070221183430.xls
http://www.pac.ru/europa/france/tour/special/ski/spo007.xls
http://www.pac.ru/northeurope/norway/tour/special/ski/hemsedal.rtf
 

Oldwin

Новичок
Безусловно это так. Однако было бы неэффективно писать конвертор под каждый тип, так, как
1. Формат может измениться.
Ну тогда придется писать искуственный интеллект :D

А вообще чужой контент тырить не хорошо. А то поставщики, поставщики... ))
 

akd

dive now, work later
Команда форума
Oldwin, раз они выкладывают xls и rtf, то наверное о тырянии речи не идет ..
 

Oldwin

Новичок
Oldwin, раз они выкладывают xls и rtf, то наверное о тырянии речи не идет ..
Правда чтоль? Данные прайсы выкладываются для ознакомления посетителей с услугами и ценами, предоставляемыми компанией, но это не значит, что данные компании дают добро на сбор этой информации кем-то с целью последующего предоставления данной информации на других ресурсах.
 

chenema

Новичок
Данные примеры я привел с целью показать пример.
В реальной ситуации такие же прайсы туроператоры присылают своим агентам. Так что о легальности контента речь не идет - все легально, так как в итоге продается продукт оператора.

-~{}~ 06.03.07 19:40:

Собственно в данный момент я представляю такое вот туристическое агенство. В связи нововведениями в законе об операторской деятельности потребовалось решение данной задачи. У компании есть на это бюджет, но нет ни идей не людей которые это могут сделать. Предложение по сотрудничеству открыто - только скажите, что это реально :)
 

tf

крылья рулят
Предложение по сотрудничеству открыто - только скажите, что это реально
это тебе в форум работа
Возникла необходимость разбирать таблицы различного формата но с одинаковым содержанием.

Сложность заключается в том, что хотя суть таблиц одна и та же (X,Y - параметры, на пересечениях - цены). Но поставщики предоставляют материалы в совершенно разном виде. У кого-то это Excel, Word, У кого то HTML (слава богу PDF пока нет).
Всего около 50 разных вариантов представлений таблиц, причем все таблицы достаточно сложны и объемны.

В связи с этим вопрос, сталкивались ли Вы с подобными задачами разбора таблиц и приведения их одному формату, каково Ваше мнение, можно ли решить эту задачу средствами PHP?
возможно
а вообще это не ясное объяснение проблемы, а значит нет ответов по пути решения
 
Сверху