Оптимизация вложенного запроса.

A-Lex[FM] · 21 Мар 2007

Оптимизация вложенного запроса.

Всем привет.
Вчера появился трабл со временем выполнения вложенного запроса.
имеем:
1. Таблица категорий ([int] id, [varchar] title)
2. Таблица данных ([int] id, [int] section_id, [varchar] title, [text] article)
(естественно id и category_id - индексные)

задача:
Выбрать последние записи в каждой категории. Структуру таблиц не менять.

моё решение:
[sql]
SELECT s.id, s.title AS section_title, g. *
FROM sections s
LEFT JOIN gdata g ON s.id = g.section_id
WHERE g.id
IN (
SELECT MAX( g1.id )
FROM sections s1
LEFT JOIN gdata g1 ON g1.section_id = s1.id
GROUP BY s1.id
)
ORDER BY s.id
[/sql]

появившаяся проблема:
запрос отрабатывает очень долго, после изменения данных в таблицах ~60 сек. После кэширования ~6 сек.

Собственно вопрос:
Как можно оптимизировать индексы и запрос, для увеличения скорости его выполнения.

zerkms · 21 Мар 2007

для начала - показать EXPLAIN и структуры таблиц

A-Lex[FM] · 21 Мар 2007

aixrus · 25 Мар 2007

вообще id IN ( SELECT

не очень хорошая конструкция
не знаю как в mysql это реализуется, но при такой записи в некоторых других БД этот вложенный запрос будет исполняться для каждой строчки

тут два варианта
1. через псевданимы таблицы (если mysql это умеет делать)
SELECT * FROM table1, (SELECT * FROM table2) as table 2
а потом делать объединение по ключам table1 и table2

2. в скрипте делать выборку условий, формировать список занчений 'id1','id2','id3' итд

после чего вставльть и выполнять основной запрос с IN (полученное условие)

а если еще умеешь делать кеширование, то один раз выполнив подзапрос и отложив его в памяти, в дальнейшем два будут выполняться быстрее чем один большой

walrus · 25 Мар 2007

добавлю от себя:
1. мускул, если не ошибаюсь, не работает с такими вот структурами, какие предлагает aixrus - SELECT * FROM table1, (SELECT * FROM table2) as table 2

2. to A-Lex[FM] а где explain?

не всегда, когда используется конструкция IN, мускул пользуется индексами, гораздо быстрее в таких случаях работают запросы с UNION, в каждом из которых есть условие id = value

3. а зачем во вложенном запросе делается объединение, если оно есть в основном? можно еще избавиться от LEFT JOIN

A-Lex[FM] · 26 Мар 2007

Исправил запрос на такой
[sql]
SELECT s.id, s.title AS section_title, g. *
FROM sections s
LEFT JOIN gdata g ON s.id = g.section_id
WHERE g.id
IN (
SELECT MAX( g1.id )
FROM gdata g1
GROUP BY g1.section_id
)
ORDER BY s.id
[/sql]

время выполнения сократилось в 10 раз.
попробую ещё поиграться с кэшированием.
всем спасибо.

denver · 26 Мар 2007

A-Lex[FM]

попробую ещё поиграться с кэшированием.

Почитай лучше про EXPLAIN, как минимум чтобы понять с чего именно стало лучше в 10 раз.

walrus · 26 Мар 2007

а можно еще и navicat поставить и посмотреть время выполнения каждого запроса, к тому же там explain автоматически для каждого запроса делается

camka · 26 Мар 2007

A-Lex[FM]
Попробуй вставить подзапрос во временную таблицу с соответствующими индексами и потом просто сделать с ней JOIN.

Были случаи, когда, если подзапрос включал ту же таблицу, что и внешний запрос, выборка происходила исключительно медленно. Временная таблица исправляла результат кардинально.

A-Lex[FM] · 26 Мар 2007

спасибо за советы.
вечером буду ставить экспирименты.

Да. может кто-нибудь посоветует ещё, мне надо делать полнотекстовый поиск одновременно по 3 и более таблицам, сейчас я объединяю через UNION и сортирую по релевантности, но это не очень удобно.
Сделал вьюшку из этих таблиц, но там нельзя юзать индексы, что не позитивно. Можно ли как-нибудь всё-таки их заюзать.

walrus · 26 Мар 2007

С вьюшками прокатит только в 5 мускуле, в старых версиях их нет.
а разве индексы не передаюся с основных таблиц?

A-Lex[FM] · 28 Мар 2007

fulltext похоже что нет

chira · 28 Мар 2007

A-Lex[FM]
возможно маленькое дополнение тебе тоже должно помочь:

Код:

SELECT s.id, s.title AS section_title, g. *
FROM sections s
LEFT JOIN gdata g ON s.id = g.section_id
WHERE g.id
IN (
  SELECT MAX( g1.id )
  FROM gdata g1
  [b]WHERE s.id = g1.section_id[/b]
--  GROUP BY g1.section_id -- тогда можно без GROUP BY
)
ORDER BY s.id

A-Lex[FM] · 29 Мар 2007

chira, спасибо огромное, колличество обрабатываемых строк уменьшилось ещё в 8 раз.
По EXPLAIN получается следующее:
1 вариант: обрабатывалось 4 подзапроса, учавствовало 8*105*8*105 строк
2 вариант: 3 подзапроса, 8*105*105, не использовались индекы
3 и последний вариант: 3 подзапроса, 8*105*105, использование индексов.

chira · 29 Мар 2007

A-Lex[FM]

последний штрих, не обязательный и его нужно обдумать ...
составной индекс на таблице gdata (section_id,id), это позволит читать данные только из индекса и не трогать саму таблицу в подзапросе ...

A-Lex[FM] · 29 Мар 2007

ещё раз респект
в принципе составной индекс может помочь, вечером попробую на фэйковой базе.

Оптимизация вложенного запроса.

A-Lex[FM]

Web/Highload/DataScience

zerkms

TDD infected

A-Lex[FM]

Web/Highload/DataScience

aixrus

Новичок

walrus

Новичок

A-Lex[FM]

Web/Highload/DataScience

denver

?>Скриптер

walrus

Новичок

camka

не самка

A-Lex[FM]

Web/Highload/DataScience

walrus

Новичок

A-Lex[FM]

Web/Highload/DataScience

chira

Новичок

A-Lex[FM]

Web/Highload/DataScience

chira

Новичок

A-Lex[FM]

Web/Highload/DataScience