Многоязыковая модель данных

Bermuda · 28 Дек 2006

Многоязыковая модель данных

Известно, что используя ООП можно построить проекцию реляционной базы данных на програмный код следующим образом:
Сущность == Таблица == Класс
Кортэж = Запись (строка) == Объект класса
Атрибут == Поле (столбец) == Свойство объекта
Такое соглашение очень удобно при реализации ORM, и в некоторых случаях позволяет реализовать генерацию функционала CRUD на основе имеющейся модели данных. До этого места все вроде бы понятно.
Трудности возникают при реализации "многоязыковой" модели данных.
Пример:
Есть класс "статьи", объекты класса хранятся в одноименной таблице, по одной записи на объект. Некоторые свойства класса текстовые, например "заголовок статьи", т. е. они содержат текст на вполне определенном языке, например на русском. В многоязычном сайте такие текстовые поля могут быть представлены на нескольких языках. Например сайт сделан русском, английском и испанском. Таким образом редактор добавляя новую статью должен ввести "заголовок статьи" на данных языках, дабы в дальнейшем при запросе пользователя приложение отобразило "заголовок статьи" на языке текущего интерфейса пользователя. Т. е. на сайт заходит испанец, переключает интерфейс на испанский язык и при запросе статьи получает ее на испанском языке.

Вопрос: Как правильнее реализовать модель данных?

Вопрос не по php, скорее это академический вопрос по реализации модели данных.

На сегодняшний день я нашел несколько вариантов решения, но не один меня не удовлетворил.

1. Тривиальный
Для каждого текстового поля завести столько его дубликатов сколько языков присутствует в системе. Т. е. в таблице базы будет три отдельных поля для русского, английского и испанского названия статьи.
Достоинства:
- соответствует соглашению приведенному выше
- облегчает реализацию автогенерации CRUD функционала.
Недостатки:
- следуя соглашению описанному выше каждое поле это свойство класса, таким образом вместо отображения одного свойства потребуется выбрать из нескольких, что не совсем корректно с точки зрения ООП.
- при добавлении/удалении/изменении языка потребуется переделывать как модель данных, так и классы.
- избыточность, не для всех статей может существовать перевод на другой язык

2. Притянутый за уши
Разбить класс (сущность, таблицу) на две части. Левая часть -- языконезависимая, правая зависит от языка. На одну левую часть создается столько правых частей сколько языков присутствует в системе. Т. е. создается одна запись в таблице "статьи" и три записи в таблице "статьи-языки".
Достоинства:
- псевдореляционно
Недостатки:
- не соответсвует изначальному соглашению, что затрудняет реализацию автогенерации CRUD функционала.
- в действительности используется составной первичный ключ (идентификадор + язык) вместо простого первичного ключа (идентификатор). Т. е. для статьи с номером 5 будет:
5 + русский = содержимое на русском
5 + английский = содержимое на английском
5 + испанский = содержимое на испанском
Что в действительности суть три различных объекта с тремя составными первичными ключами.
- нереляционно

3. Избыточный.
Для каждого языка создается свой экземпляр объекта.
Достоинства:
- полностью соответсвует соглашению описанному выше.
Недостатки:
- трудности навигации. Для получения содержимого одной и той же статьи на разных языках требуется указать разные идентификаторы

Используя предыдущие методы можно говорить скорее о версиях статьи на разных языках, чем о переводе.

4. Перевод
Забыть про такое понятие как язык и просто использовать тектовые данные как есть. Также завести еще один класс/таблицу переводов. Каждому тексту будет соответствовать запись/объект в классе/таблице переводов. Первичным ключом таблицы переводов может служить оригинальный текст или его хэш. При запросе пользователя будет получен объект, после чего будет проверено предоставлены ли тескстовые данные на том языке на котором их запрашивает пользователь, в случае несоответствия будут найдены переводы текстов из таблицы переводов.
Достоинства:
- полностью исключается понятие языка для текстовых данных и вводится понятие перевода текста.
- полностью соответсвует соглашению описанному выше.
Недостатки:
- Резкое падение производительности при использовании оригинальных текстов как ключа для поиска перевода.
- В случае использования хэша текста появляется проблема разрешения коллизий и в случае если язык интерфейса пользователя не совпадает с оригинальным языком "статьи" теряется возможность поиска по текстовым полям
- отсуствует возможность "правильной" связи текста с записью в таблице переводов.

Дополнительно:

1. Может существовать несколько текстовых полей
Т. е. будет нечто похожее на
таблица_статей.поле_заголовок.значение => таблица_переводов.поле_ключа.значение
все бы хорошо, но текстовых полей может быть больше чем один, следовательно такая связь не будет иметь смысла.

2. Может существовать несколько сущностей/таблицы/классов содержащих текстовые данные.

3. Необходимо иметь возможность безболезненно добавлять/удалять языки

Не знаю, удалось ли мне объяснить проблему, но тем не менее: Как правильнее реализовать модель данных?

bkonst · 29 Дек 2006

По моему (скромному, так как решение внутреннее и под большой нагрузкой не тестировалось, да и не разрабатывалось для нее) мнению, второй вариант совсем не такой уж плохой.

Пользователь будет обращаться к объекту "статья", содержащем общие для всех переводов данные (например, информацию об авторе оригинала), который уже сам, на основании данных, представленных пользователем, должен выбрать и загрузить "локализацию", содержащую данные перевода (заголовок, текст и прочее) - фактически это доступ к элементу коллекции. При этом не будет проблем со ссылками на статью и с хранением данных, относящихся к статье в целом (библиографии; рецензий; ссылок на связанных статьи), как в случае 3, не будет проблем с производительностью и неоднозначными переводами, как в случае 4.

Bermuda · 29 Дек 2006

2-й вариант это то, что я использую на текущий момент. Сдается мне, что он не совсем соответствует второму правилу Кодда. Также возникают некоторые трудности реализации генератора кода. И наконец, такая модель данных не совсем соответствует теории реляционных баз данных. Есть конечно же и плюсы, но хотелось бы только плюсы, без минусов.

bkonst · 29 Дек 2006

Второе правило Кодда это "любое значение должно быть доступным через комбинацию имени таблицы, ключа и имени столбца", так? Тогда не понимаю, как оно может нарушаться в нашем случае.

С технической точки зрения, "локализация" - это отдельная сущность со своей собственной Identity; между сущностями "статья" и "локализация" - связь 1:N - абсолютно стандартно реализуется в 3 НФ.

Bermuda · 29 Дек 2006

Так то оно так. "Локализация" -- отдельная сущность для администратора. Меня терзают смутные сомнения, что для конечного пользователя который запрашивает "статью" это отдельной сущностью не является. Скажем так, есть модель админская и пользовательская. Для админской фиг бы с ним, пусть отдельные сущности, для пользовательской должна быть сущность единая.

bkonst · 29 Дек 2006

А зачем пользователю (да и администратору тоже) знать о "сущностях"? В любой программе есть масса вещей, от пользователя скрытых (те же правила доступа, например). Пользователь либо просто запрашивает статью - и получает локализацию для языка, указанного в его настройках - либо указывает язык в запросе - и получает конкретную локализацию; откуда берется локализация, где она хранится и как связана с самой статьей, он не знает - это важно только для самого скрипта.

Аналог: система контроля версий - запросив файл, получаешь по умолчанию конкретную версия; указав, скажем, дату - получаешь состояние на тот момент.

Bermuda · 29 Дек 2006

bkonst
>> А зачем пользователю (да и администратору тоже) знать о "сущностях"?

Планируется создать "генератор кода" которому в принципе не повредит "понимать" модель данных. На основе разспознанной модели данных кодегенератор должен нагенирить ORM-классы для CRUD-а. Генерированные классы будут являться классами модели MVC. Потом уже ручками или полуавтоматом будут созданы классы расширяющие нагенереные, причем для админа и для пользователя они будут разные.

Ладно, в общем-то вопрос в том, есть ли еще какие-либо варианты реализации модели?

-~{}~ 04.01.07 10:44:

?

horal · 29 Янв 2007

а как вам такой вариант:

основная таблица содержит один язык.

И есть доп таблица:

id, en_text, en_title, en_body, fr_text, fr_title, fr_body

И когда у вас в системе установлен новый язык - тогда вам просто нужно сделать выборку из этой таблицы по нужному id.
определнынх полей:

$mode."_text", $mode."_title" and so on

bkonst · 29 Янв 2007

а как вам такой вариант:

основная таблица содержит один язык.

И есть доп таблица:

id, en_text, en_title, en_body, fr_text, fr_title, fr_body

Убил бы.

bakh · 29 Янв 2007

horal Ужоснах!.. 8-О

Bermuda · 29 Янв 2007

Автор оригинала: horal
а как вам такой вариант:

основная таблица содержит один язык.

И есть доп таблица:

id, en_text, en_title, en_body, fr_text, fr_title, fr_body

Вы абсолютно ничего не поняли из написанного в топике. Спасибо за участвие.

Многоязыковая модель данных

Bermuda

Новичок

bkonst

.. хочется странного?...

Bermuda

Новичок

bkonst

.. хочется странного?...

Bermuda

Новичок

bkonst

.. хочется странного?...

Bermuda

Новичок

horal

Новичок

bkonst

.. хочется странного?...

bakh

Абалдуй

Bermuda

Новичок