Подзапросы в sql примеры: Подзапросы в основных командах SQL

Содержание

Подзапросы в выражении CASE / Хабр

По материалам статьи Craig Freedman: Subqueries in CASE Expressions

В этой статье будет рассмотрено, как SQL Server обрабатывает подзапросы в выражении CASE. Кроме того, будут рассмотрены несколько экзотических возможностей соединений.

Скалярные выражения

Для простых случаев использования выражений CASE (без подзапросов), возможна оценка только выражения CASE, состоящего из нескольких скалярных выражений:

create table   T1 (a int, b int,   c int)
select
    case
          when T1.a > 0   then
              T1.b
          else
              T1.c
    end
from T1

^{|—Compute Scalar(DEFINE:([Expr1004]=CASE WHEN [T1].[a]>(0) THEN [T1].[b]}

^{ELSE [T1].[c] END))}

^{|—Table Scan(OBJECT:([T1]))}

Этот план запроса подразумевает просмотр таблицы T1 и оценку выражения CASE для каждой её строки. Оператор Compute Scalar вычисляет значение выражения CASE, включая оценку условия и принятие решения, будет ли выполняться оценка в предложении THEN или ELSE.
Если в выражение CASE поместить подзапросы, всё становится немного сложнее и существенно интересней.

Предложение WHEN

Давайте сначала добавим к предложению WHEN простой подзапрос:

create table   T2 (a int, b int)
select
    case
          when exists   (select * from   T2 where T2.a = T1.a) then
              T1.b
          else
              T1.c
    end
from T1

^{|—Compute Scalar(DEFINE:([Expr1009]=CASE WHEN [Expr1010] THEN [T1].[b] ELSE [T1].[c] END))}

^{|—Nested Loops(Left Semi Join, OUTER REFERENCES:([T1].[a]), DEFINE:([Expr1010] = [PROBE VALUE]))}

^{|—Table Scan(OBJECT:([T1]))}

^{|—Table Scan(OBJECT:([T2]), WHERE:([T2].[a]=[T1]. [a]))}

Как и для других EXISTS подзапросов, этот план использует левое полусоединение, позволяющее проверить, имеется ли для каждой строки в T1 соответствующая строка в T2. Однако, нормальное полусоединение (или анти-полусоединение) возвращает только парные строки (или непарные). В этом случае, должно быть возвращено хоть что-то (T1.b или T1.c) для каждой строки в T1. Мы не можем просто отказаться от строки T1 только потому, что для неё нет соответствующей строки в T2.
Решением стал специальный тип полусоединения со столбцом пробной таблицы. Это полусоединение возвращает все внешние соответствующие или не соответствующие строки, и устанавливает столбец пробной таблицы (в нашем случае это [Expr1010]) в истину или ложь, что указывает, была ли найдена соответствующая строка T1. После этого, выполняется оценка выражения CASE, для чего используется столбец пробной таблицы, с помощью которого определяется, какое значение будет возвращено.

Предложение THEN

Давайте теперь попробуем добавить к предложению THEN простой подзапрос:

create table   T3 (a int unique   clustered, b int)
insert T1 values(0, 0,   0)
insert T1 values(1, 1,   1)
select
    case
          when T1. a > 0   then
              (select T3.b from   T3 where T3.a = T1.b)
          else
              T1.c
    end
from T1

Я добавил к T3 ограничение уникальности, позволяющее гарантировать, что скалярный подзапрос возвратит только одну строку. Без ограничения, план запроса был бы более сложен, поскольку оптимизатору нужно было бы гарантировать, что подзапрос действительно возвратит только одну строку, и ему пришлось бы выдавать ошибку, если бы вернулось больше одной строки.
Я также добавил в T1 ещё две строки, причём, условие в предложение WHEN выдаст ложь для первой строки и истину для второй строки. Таким образом, первая строка у нас будет подходить для ELSE, а вторая для THEN. Обратите внимание, что значение подзапроса в THEN будет использоваться, только если предложение WHEN будет истинно.
Ниже показан профиль статистики для плана исполнения этого запроса:

^{Rows Executes}

^{0 0 |—Compute Scalar(DEFINE:([Expr1008]=CASE WHEN [T1]. [a]>(0)}

^{THEN [T3].[b]}

^{ELSE [T1].[c] END))}

^{2 1 |—Nested Loops(Left Outer Join, PASSTHRU:}

^{(IsFalseOrNull [T1].[a]>(0)),}

^{OUTER REFERENCES:([T1].[b]))}

^{2 1 |—Table Scan(OBJECT:([T1]))}

^{0 1 |—Clustered Index Seek(OBJECT:([T3].[UQ__T3__412EB0B6]),}

^{SEEK:([T3].[a]=[T1].[b])}

^{ORDERED FORWARD)}

Этот план запроса использует специальный тип соединения вложенных циклов, в котором задействуется предикат PASSTHRU. Соединение оценивает предикат PASSTHRU для каждой внешней строки. Если предикат PASSTHRU оценивается как истина, соединение немедленно возвращает строку, подобную полусоединению или внешнему соединению. Если же предикат PASSTHRU оценивается как ложь, соединение выполняется обычным образом, т.е. выполняется попытка соединения внешней строки с внутренней строкой.
В показанном выше примере, предикат PASSTHRU выражения CASE является инверсией (обратите внимание на функцию IsFalseOrNull) предложения WHEN. Если предложение WHEN оценивается как истина, предикат PASSTHRU оценивается как ложь, происходит соединение, и поиск по внутренней части соединения выполняет оценку подзапроса THEN. Если предложение WHEN оценивается как ложь, предикаты PASSTHRU оценивается как истина, соединение пропускается, а поиск или подзапрос THEN не выполняется.
Обратите внимание, что просмотр T1 возвращает 2 строки, хотя поиск в T3 выполняется только один раз. Так происходит потому, что в нашем примере предложение WHEN истинно только для одной из двух строк. Предиката PASSTHRU является единственным механизмом, когда число строк на внешней стороне соединения вложенных циклов не соответствует в точности числу строк на внутренней стороне.
Также обратите внимание, что после того, как будет использовано внешнее соединение, невозможно гарантировать, что подзапрос в THEN вернёт хоть что-нибудь (в действительности гарантируется только то, что благодаря ограничению уникальности будет возвращено не более одной строки). Если подзапрос не возвращает строк, внешнее соединение просто возвратит NULL для T3.b. Если бы использовалось внутреннее соединение, отказаться от строки T1 было бы неправильно. Предостережение: я прогонял эти примеры на SQL Server 2005. Если Вы будете выполнять этот пример на SQL Server 2000, предикат PASSTHRU будет виден, но в плане исполнения запроса он появится как регулярный предикат предложения WHERE. К сожалению, для SQL Server 2000 не существует простого пути различения регулярных предикатов и предиката PASSTHRU.

Предложение ELSE и несколько предложений WHEN

Подзапрос в предложении ELSE работает точно так же, как и подзапрос в предложении THEN. Для оценки условия подзапроса будет использован предикат PASSTHRU.
Точно так же выражение CASE с несколькими предложениями WHEN с подзапросами в каждом предложении THEN будет работать аналогичным образом. Отличие только в том, что предикатов PASSTHRU будет больше.
Например:

create table   T4 (a int unique   clustered, b int)
create table   T5 (a int unique   clustered, b int)
select
    case
          when T1.a > 0   then
              (select T3.b from   T3 where T3.a = T1.a)
          when T1.b > 0   then
              (select T4.b from   T4 where T4.a = T1.b)
          else
              (select T5.b from T5   where T5.a = T1.c)
    end
from T1

^{|—Compute Scalar(DEFINE:([Expr1016]=CASE WHEN [T1].[a]>(0)}

^{THEN [T3].[b]}

^{ELSE CASE WHEN [T1].[b]>(0)}

^{THEN [T4]. [b]}

^{ELSE [T5].[b]}

^END

^END))

^{|—Nested Loops(Left Outer Join, PASSTHRU:([T1].[a]>(0) OR [T1].[b]>(0)),}

^{OUTER REFERENCES:([T1].[c]))}

^{|—Nested Loops(Left Outer Join, PASSTHRU:([T1].[a]>(0)}

^{OR IsFalseOrNull [T1].[b]>(0)),}

^{OUTER REFERENCES:([T1].[b]))}

^{| |—Nested Loops(Left Outer Join, PASSTHRU:}

^{(IsFalseOrNull [T1].[a]>(0)),}

^{OUTER REFERENCES:([T1]. [a]))}

^{| | |—Table Scan(OBJECT:([T1]))}

^{| | |—Clustered Index Seek(OBJECT:([T3].[UQ__T3__164452B1]),}

^{SEEK:([T3].[a]=[T1].[a])}

^{ORDERED FORWARD)}

^{| |—Clustered Index Seek(OBJECT:([T4].[UQ__T4__182C9B23]),}

^{SEEK:([T4].[a]=[T1].[b])}

^{ORDERED FORWARD)}

^{|—Clustered Index Seek(OBJECT:([T5].[UQ__T5__1A14E395]),}

^{SEEK:([T5].[a]=[T1].[c])}

^{ORDERED FORWARD)}

В этом плане запроса три соединения вложенных циклов с предикатами PASSTHRU. Для каждой строки T1, только один из трех предикатов PASSTHRU оценивается как истина, и только один из трех подзапросов будет выполнен. Обратите внимание, что пока второе предложение WHEN соответствует «T1.b > 0», это значит, что первое предложение WHEN, где «T1.a > 0» оказалось ложным. Это также относится и к предложению ELSE. Таким образом, предикаты PASSTHRU для второго и третьего подзапроса включают проверку «T1.a > 0 OR…».

Столбец пробной таблицы в качестве предиката PASSTHRU

Наконец, давайте рассмотрим запрос с подзапросами в предложениях WHEN и в предложениях THEN. Также, для разнообразия, давайте переместим выражение CASE из списка SELECT в предложение WHERE.

select *
from T1
where 0   =
    case
          when exists   (select * from   T2 where T2.a = T1.a) then
              (select T3.b from   T3 where T3.a = T1.b)
          else
              T1.c
    end

^{|—Filter(WHERE:((0)=CASE WHEN [Expr1013]}

^{THEN [T3]. [b]}

^{ELSE [T1].[c]}

^END))

^{|—Nested Loops(Left Outer Join, PASSTHRU:(IsFalseOrNull [Expr1013]),}

^{OUTER REFERENCES:([T1].[b]))}

^{|—Nested Loops(Left Semi Join, OUTER REFERENCES:([T1].[a]),}

^{DEFINE:([Expr1013] = [PROBE VALUE]))}

^{| |—Table Scan(OBJECT:([T1]))}

^{| |—Table Scan(OBJECT:([T2]), WHERE:([T2].[a]=[T1].[a]))}

^{|—Clustered Index Seek(OBJECT:([T3].[UQ__T3__164452B1]),}

^{SEEK:([T3].[a]=[T1].[b])}

^{ORDERED FORWARD)}

В этом плане исполнения запроса имеется левое полусоединение со столбцом пробной таблицы, позволяющее оценить подзапрос в предложении WHEN, и соединение вложенных циклов с предикатом PASSTHRU для столбца пробной таблицы, позволяющее решить, выполнять ли оценку подзапроса в предложении THEN. Поскольку выражение CASE было перемещено в предложение WHERE, для оценки выходных значений из списка SELECT вместо оператора Compute Scalar используется оператор Filter, с помощью которого определяется, какие строки будут возвращены. Все остальное работает точно так же.

Далее…

В следующей статье, я рассмотрю несколько других типов подзапросов.

Использование подзапросов в SQL | Info-Comp.ru

Продолжаем изучать SQL, и сегодня мы будем говорить о достаточно полезной вещи в SQL это «Подзапрос». Рассмотрим что такое подзапрос и, конечно же, как обычно напишем несколько примеров, для того чтобы лучше понять, как писать эти подзапросы и в каких случаях их лучше использовать.

Как я уже сказал, о SQL мы разговариваем достаточно часто, так как это знание и умение использовать SQL требуется практически везде, будь то база данных сайта в Интернете или баз данных в организациях. Причем, даже совсем в небольших организациях, где всего один программист или системный администратор, но при этом имеется какая-нибудь база данных и для того, что ее администрировать, выгружать какие-то данные, для отчета, необходимы начальные знания SQL. Основы SQL мы рассматривали во многих статьях таких как «Язык запросов SQL – Оператор SELECT» или как «добавить колонку в таблицу на SQL». Но, так или иначе, тему подзапросов мы не затрагивали, и пришло время поговорить об этом.

И начнем мы как всегда с теории.

Содержание

Что такое подзапрос?
В каких случаях использовать подзапрос?
Где можно использовать подзапрос?

Что такое подзапрос?

Подзапрос – это отдельный запрос внутри другого запроса, который может объединяться с основным, но не обязательно.

Использовать подзапросы бывает достаточно удобно в некоторых случаях, но помните, что злоупотреблять ими не нужно. Так как это значительно усложняет план запроса и соответственно замедляет его работу.

О том, что еще влияет на скорость выполнения запросов, и чего лучше не надо делать можете посмотреть полезные советы по написанию SQL запросов.

Для наглядности я попытался изобразить подзапрос схематично:

В каких случаях использовать подзапрос?

Как я уже сказал писать вложенные запросы направо и налево не стоит, но иногда можно.

Например, когда выборка идет из одной таблице, которая имеет определенный ключ, а Вам необходимо получить одну колонку с максимальным значением из другой таблицу по этому ключу, при этом, не объединяя эти таблицы (в данном случае подзапрос пишется в конструкции select). Или, например, Вам необходимо обращаться к данным, которые расположены во многих таблицах, при том, что данные, из этих таблиц будут браться путем каких-то вычислений и уже к этим данным Вам необходимо обращаться, это можно сделать путем написания запроса в конструкции from, без написания дополнительных VIEW представлений, допустим, что Вам этот запрос потребуется только один раз, и чтобы не засорять базу, Вы не будете создавать представление.

Где можно использовать подзапрос?

Подзапрос можно использовать практически во всех конструкциях, давайте разберем самые часто используемые.

1. В конструкции Select. Пример:

select t1. col1, t1.col2, 
        (select max(t2.col3) from table2 as t2 where t2.col1=t1.col1) as col3
from table1 as t1

2. В конструкции From. Пример:

   
   SELECT col1, col2, col3
   FROM (SELECT t1.col1 AS col1, t2.col2 AS col2, t1.col1+t2.col2 AS col3
         FROM table1 as t1
         LEFT JOIN table2 as t2 ON t1.col3=t2.col3
         WHERE t1.col1 >1000) AS Q1

3.В конструкции WHERE. Пример:

   select col1, col2, col3 from table1 
   where col1 = (select avg(col1) from table2)

4. При объединении. Другими словами можно осуществить объединение таблицы с подзапросом. Пример:

select t1.col1, t1.col2, t1.col3, q1.col1, q1.col2, q1.col3 
    from table1 as t1
left join (select col1, col2, col3 from table2) as q1 on t1.col1=q1.col1

Вот такие простенькие примеры, но это не все где можно использовать подзапрос, просто это наиболее распространенные варианты использования таких запросов. Надеюсь, стало немного понятно, и на последок давайте приведем пример многоуровневого запроса, просто так, он не из жизни, но так тоже можно писать. Пример:

select col1, col2, col3, col4, col5, col6
from (select t1.col1 as col1, t1.col2 as col2, t1.col3 as col3, 
       q1.col1 as col4, q1.col2 as col5, q1.col3 as col6 
from table1 as t1
left join (select col1, col2, 
              (select avg(col1) from table3) as col3 from table2) as q1 
                 on t1.col1=q1.col1
where t1.col1 >1000)

В данном запросе, мы обращаемся к подзапросу, в котором в свою очередь идет объединение с вложенным запросом, а в котором используется подзапрос в конструкции select.

Вот такие примеры, они не являются примером выхода из каких-то ситуаций, на практике они могут, и не понадобится, но для общего синтаксиса я их привел. На сегодня все, в дальнейшем будем осваивать новые тонкости SQL. Пока. Удачи!

Заметка! Для комплексного изучения языка SQL и T-SQL рекомендую посмотреть мои видеокурсы по T-SQL, которые помогут Вам «с нуля» научиться работать с SQL и программировать на T-SQL в Microsoft SQL Server.

Руководство для начинающих (с примерами кода)

Каждому специалисту по данным необходимо разбираться в базе данных SQL, включая подзапросы. Вот введение.

В этой статье мы рассмотрим основы подзапросов SQL, их синтаксис, их полезность, а также когда и как их использовать при выполнении запросов к базе данных.

В этой статье предполагается, что у вас есть базовые знания о выборе данных с помощью SQL, таких как группировка данных, агрегатные функции, фильтрация и базовые соединения.

Что такое подзапрос

Подзапрос — это не что иное, как запрос внутри другого запроса. В основном мы используем их для добавления нового столбца к основному результату запроса, для создания фильтра или для создания консолидированного источника, из которого можно выбирать данные.

Подзапрос всегда будет заключен в круглые скобки и может появляться в разных местах в основном запросе, в зависимости от цели — обычно в оговорках SELECT , FROM или WHERE . Кроме того, количество подзапросов не ограничено, что означает, что вы можете иметь столько вложенных запросов, сколько вам нужно.

База данных

Чтобы написать реальный код SQL, мы будем использовать базу данных Chinook в качестве примера. Это образец базы данных, доступный для нескольких типов баз данных.

База данных содержит информацию о вымышленном цифровом музыкальном магазине, такую как данные об исполнителях, песнях, плейлистах, музыкальных жанрах и альбомах из музыкального магазина, а также информацию о сотрудниках магазина, покупателях и покупках.

Это схема базы данных, чтобы вы могли лучше понять, как работают запросы, которые мы напишем:

Подзапрос для создания нового столбца

Первый вариант использования подзапроса состоит в том, чтобы использовать его для добавления нового столбца к выходным данным основного запроса. Вот как будет выглядеть синтаксис:

ВЫБЕРИТЕ столбец_1,
       столбцы_2,
       (ВЫБИРАТЬ
            . ..
        ИЗ таблицы_2
        СГРУППИРОВАТЬ ПО 1)
ИЗ таблицы_1
GROUP BY 1

Давайте рассмотрим практический пример.

Здесь мы хотим увидеть количество плейлистов в приложении, в которые пользователи добавили каждую песню.

Основной запрос возвращает два столбца: название песни и количество плейлистов, в которые ее добавили пользователи. Это второй столбец, который требует подзапроса. Подзапрос здесь необходим, потому что мы должны сопоставить track_id , назначенный списку воспроизведения, с track_id в таблице дорожек, а затем подсчитать их для каждой дорожки.

ВЫБЕРИТЕ т.имя,
    (ВЫБИРАТЬ
         количество (playlist_id)
    ИЗ playlist_track pt
    ГДЕ pt.track_id = t.track_id
    ) как количество_плейлистов
С дорожки т
СГРУППИРОВАТЬ ПО 1
ORDER BY number_of_playlists DESC
ПРЕДЕЛ 50

Затем мы получаем этот вывод:

имя	количество_плейлистов
Сон в летнюю ночь, Op. 61 Музыкальное сопровождение: No.7 Notturno	5
Aria Mit 30 Veränderungen, BWV 988 «Вариации Гольдберга»: Ария	5
Аве Мария	5
Кармен: Увертюра	5
Кармина Бурана: О Фортуна	5
Cavalleria Rusticana \ Act \ Intermezzo Sinfonico	5
Концерт для фортепиано № 2 фа минор, соч. 21: II. Ларгетто	5
Концерт для скрипки, струнных и континуо соль мажор, соч. 3, № 9: И. Аллегро	5
Das Lied Von Der Erde, Von Der Jugend	5
Валькирия: Полет валькирий	5
Die Zauberflöte, K.620: «Der Hölle Rache Kocht in Meinem Herze»	5
Фантазия на зеленых рукавах	5
Интоитус: обожаю Деум	5
Юпитер, несущий веселье	5
Карелия-сюита, Op. 11: 2. Баллада (Tempo Di Menuetto)	5
Кояанискаци	5
Плач Иеремии, первый набор \ Incipit Lamentatio	5
Метопы, соч. 29: Калипсо	5
Мизерере Мей, Деус	5

Выполнение математических операций

При создании нового столбца подзапрос также может быть полезен для выполнения некоторых вычислений. Конечно, в этом случае выводом подзапроса должно быть одно число.

В следующем запросе мы хотим узнать процент треков каждого жанра в нашей базе данных. Синтаксис в основном такой же, как и в последнем примере, только подзапрос будет частью создания нового столбца, а не всего нового столбца.

Для этой задачи нам нужно разделить количество песен в каждом жанре на общее количество песен в этой таблице дорожек. Мы можем легко получить доступ к общему количеству треков с помощью этого запроса:

ВЫБИРАТЬ
    count(*) как total_tracks
С трека
| общее количество треков |
|---------------|
| 3503 |

Мы можем найти общее количество треков в каждом жанре с помощью следующего запроса:

ВЫБИРАТЬ
    g. name как жанр,
    count(t.track_id) как number_of_tracks
ИЗ жанра г
Трек INNER JOIN t на g.genre_id = t.genre_id
СГРУППИРОВАТЬ ПО 1
ЗАКАЗАТЬ ПО 2 DESC

жанр	количество дорожек
Камень	1297
Латинский	579
Металл	374
Альтернатива и панк	332
Джаз	130
Телешоу	93
Синий	81
Классический	74
Драма	64
R&B/соул	61
Регги	58
Поп	48
Саундтрек	43
Альтернатива	40
Хип-хоп/рэп	35
Электроника/Танец	30
Тяжелый металл	28
Мир	28
Научная фантастика и фэнтези	26
Легкая музыка	24
Комедия	17
Босса-Нова	15
Научная фантастика	13
Рок-н-ролл	12
Опера	1

Если мы объединим эти два запроса так, что первый будет подзапросом, результатом будет процентное соотношение песен по жанру:

ВЫБИРАТЬ
    g. name как жанр,
    round(cast(count(t.track_id) as float) / (SELECT count(*) FROM track), 2) as perc
ИЗ жанра г
Трек INNER JOIN t на g.genre_id = t.genre_id
СГРУППИРОВАТЬ ПО 1
ЗАКАЗАТЬ ПО 2 DESC

Жанр	проц
Камень	0,37
Латинский	0,17
Металл	0,11
Альтернатива и панк	0,09
Джаз	0,04
Телешоу	0,03
Синий	0,02
Классический	0,02
Драма	0,02
R&B/соул	0,02
Регги	0,02
Альтернатива	0,01
Легкая музыка	0,01
Электроника/Танец	0,01
Тяжелый металл	0,01
Хип-хоп/рэп	0,01
Поп	0,01
Научная фантастика и фэнтези	0,01
Саундтрек	0,01
Мир	0,01
Босса-Нова	0
Комедия	0
Опера	0
Рок-н-ролл	0
Научная фантастика	0

Подзапрос как фильтр

Использование подзапроса SQL в качестве фильтра основного запроса — один из моих любимых вариантов использования. В этом сценарии подзапрос будет находиться в предложении WHERE , и мы можем использовать такие операторы, как IN , = , <> , > и < для фильтрации в зависимости от вывода подзапроса.

Это синтаксис:

ВЫБИРАТЬ
    столбец_1,
    столбцы_2
ИЗ таблицы_1
ГДЕ столбец_1 в
    (ВЫБИРАТЬ
        ...
    FROM table_2)

Допустим, в нашем примере мы хотим узнать, сколько клиентов, потративших не менее 100 долларов США в магазине, назначено каждому сотруднику. Давайте сделаем это в два шага.

Во-первых, давайте просто получим количество клиентов для каждого сотрудника. Это простой запрос.

 ВЫБЕРИТЕ идентификатор_сотрудника,
       е.фамилия,
       count(различный customer_id) как number_of_customers
ОТ работника е
ВНУТРЕННЕЕ ПРИСОЕДИНЕНИЕ клиент c on e.employee_id = c.support_rep_id
СГРУППИРОВАТЬ НА 1,2
ORDER BY 3 DESC

Это вывод:

employee_id	фамилия	количество_клиентов
3	Павлин	21
4	Парк	20
5	Джонсон	18

Теперь давайте посмотрим, какие клиенты потратили в магазине не менее 100 долларов США. Это запрос:

ВЫБИРАТЬ
    c.customer_id,
    раунд (сумма (i.total), 2) как итог
ОТ клиента c
Счет INNER JOIN i на c.customer_id = i.customer_id
СГРУППИРОВАТЬ ПО c.customer_id
ИМЕЮЩАЯ сумма (i.total)> 100
ORDER BY 2 DESC

Это вывод:

customer_id	всего
5	144,54
6	128,7
46	114,84
58	111,87
1	108,9
13	106,92
34	102,96

Теперь, чтобы объединить эти два запроса, первый будет основным запросом, а второй будет в WHERE для фильтрации основного запроса.

Вот как это работает:

ВЫБЕРИТЕ идентификатор_сотрудника,
       е.фамилия,
       count(различный customer_id) как number_of_customers
ОТ работника е
ВНУТРЕННЕЕ ПРИСОЕДИНЕНИЕ клиент c on e. employee_id = c.support_rep_id
ГДЕ customer_id в (
        ВЫБИРАТЬ
            c.customer_id
        ОТ клиента c
        Счет INNER JOIN i на c.customer_id = i.customer_id
        СГРУППИРОВАТЬ ПО c.customer_id
        ИМЕЮЩАЯ сумма (i.total)> 100)
СГРУППИРОВАТЬ ПО 1, 2
ЗАКАЗАТЬ ПО 3 DESC

Это окончательный вывод:

employee_id	фамилия	количество_клиентов
3	Павлин	3
4	Парк	3
5	Джонсон	1

Обратите внимание на два важных момента:

Мы удалили столбец total_purchased при размещении запроса 2 в WHERE пункт основного запроса. Это потому, что мы хотим, чтобы этот запрос возвращал только один столбец, который основной запрос использует в качестве фильтра. Если бы мы этого не сделали, то увидели бы такое сообщение об ошибке (в зависимости от версии SQL):

 подвыборка возвращает 2 столбца - ожидается 1

Мы использовали оператор IN . Как следует из названия, мы хотели проверить, какие клиенты были В списке столбцов с покупками на сумму более 100 долларов США. 907:00

Чтобы использовать математический оператор, такой как = или <> , подзапрос должен возвращать число, а не столбец. В этом примере это не так, но мы можем легко адаптировать код для такой работы, когда это необходимо.

Подзапрос как новая таблица

Последний подход к использованию подзапроса SQL, который мы рассмотрим в этой статье, заключается в его использовании для создания нового консолидированного источника, из которого можно извлекать данные.

Мы используем этот подход, когда основной запрос становится слишком сложным и мы хотим, чтобы наш код был удобочитаемым и организованным, а также когда мы будем использовать этот новый источник данных повторно для различных целей и мы не хотим переписывать его заново и над.

Обычно это выглядит так:

ВЫБИРАТЬ
    столбец_1,
    столбец_2
ОТ
    (ВЫБИРАТЬ
        . ..
    ИЗ таблицы_1
    ВНУТРЕННЕЕ СОЕДИНЕНИЕ таблица_2)
ГДЕ column_1 > 100

Например, это будет наш подзапрос:

ВЫБЕРИТЕ c.customer_id,
       c.last_name,
       c.страна,
       с.состояние,
       count(i.customer_id) как number_of_purchases,
       round(sum(i.total), 2) как total_purchased,
       (ВЫБИРАТЬ
            количество (il.track_id) n_tracks
        FROM invoice_line il
        INNER JOIN счет i на i.invoice_id = il.invoice_id
        ГДЕ i.customer_id = c.customer_id
        ) как count_tracks
ОТ клиента c
Счет INNER JOIN i на i.customer_id = c.customer_id
СГРУППИРОВАТЬ ПО 1, 2, 3, 4
ЗАКАЗАТЬ ПО 6 DESC

Результатом является новая таблица:

customer_id	фамилия	страна	состояние	количество_покупок	total_purchased	кол_треков
5	Вихтерлова	Чехия	Нет	18	144,54	146
6	Холи	Чехия	Нет	12	128,7	130
46	О'Рейли	Ирландия	Дублин	13	114,84	116
58	Парик	Индия	Нет	13	111,87	113
1	Гонсалвес	Бразилия	СП	13	108,9	110
13	Рамос	Бразилия	ДФ	15	106,92	108
34	Фернандес	Португалия	Нет	13	102,96	104
3	Трембле	Канада	КК	9	99,99	101
42	Жирар	Франция	Нет	11	99,99	101
17	Смит	США	WA	12	98. 01	99
50	Муньос	Испания	Нет	11	98.01	99
53	Хьюз	Соединенное Королевство	Нет	11	98.01	99
57	Рохас	Чили	Нет	13	97.02	98
20	Миллер	США	КА	12	95.04	96
37	Циммерманн	Германия	Нет	10	94.05	95
22	Ликок	США	FL	12	92.07	93
21	Чейз	США	НВ	11	91.08	92
30	Фрэнсис	Канада	НА	13	91. 08	92
26	Каннингем	США	ТХ	12	86.13	87
36	Шнайдер	Германия	Нет	11	85,14	86
27	серый	США	АЗ	9	84,15	85
2	Келер	Германия	Нет	11	82,17	83
12	Алмейда	Бразилия	РДЖ	11	82,17	83
35	Сампайо	Португалия	Нет	16	82,17	83
55	Тейлор	Австралия	Новый Южный Уэльс	10	81,18	82

В этой новой таблице мы объединили идентификатор, фамилию, страну, штат, количество покупок, общую сумму потраченных долларов и количество треков, купленных для каждого клиента в базе данных.

Теперь мы можем увидеть, какие пользователи в США приобрели не менее 50 песен:

ВЫБИРАТЬ
    новая_таблица.*
ОТ
    (ВЫБЕРИТЕ c.customer_id,
        c.last_name,
        c.страна,
        с.состояние,
        count(i.customer_id) как number_of_purchases,
        round(sum(i.total), 2) как total_purchased,
        (ВЫБИРАТЬ
                количество (il.track_id) n_tracks
            FROM invoice_line il
            INNER JOIN счет i на i.invoice_id = il.invoice_id
            ГДЕ i.customer_id = c.customer_id
            ) как count_tracks
    ОТ клиента c
    Счет INNER JOIN i на i.customer_id = c.customer_id
    СГРУППИРОВАТЬ ПО 1, 2, 3, 4
    ORDER BY 6 DESC) как new_table
ГДЕ
    new_table.count_tracks >= 50
    И new_table.country = 'США'

Обратите внимание, что нам просто нужно выбрать столбцы и применить нужные фильтры в подзапросе SQL.

Это вывод:

customer_id	фамилия	страна	состояние	количество_покупок	total_purchased	кол_треков
17	Смит	США	WA	12	98. 01	99
20	Миллер	США	КА	12	95.04	96
22	Ликок	США	FL	12	92.07	93
21	Чейз	США	НВ	11	91.08	92
26	Каннингем	США	ТХ	12	86,13	87
27	серый	США	АЗ	9	84,15	85
18	Брукс	США	Нью-Йорк	8	79,2	80
25	Стивенс	США	Висконсин	10	76,23	77
16	Харрис	США	КА	8	74,25	75
28	Барнетт	США	UT	10	72,27	73
24	Ральстон	США	Ил	8	71,28	72
23	Гордон	США	МА	10	66,33	67
19	Гойер	США	КА	9	54,45	55

Мы также можем увидеть количество пользователей, купивших не менее 50 песен в каждом штате:

ВЫБИРАТЬ
    состояние,
    считать(*)
ОТ
    (ВЫБЕРИТЕ c. customer_id,
        c.last_name,
        c.страна,
        с.состояние,
        count(i.customer_id) как number_of_purchases,
        round(sum(i.total), 2) как total_purchased,
        (ВЫБИРАТЬ
                количество (il.track_id) n_tracks
            FROM invoice_line il
            INNER JOIN счет i на i.invoice_id = il.invoice_id
            ГДЕ i.customer_id = c.customer_id
            ) как count_tracks
    ОТ клиента c
    Счет INNER JOIN i на i.customer_id = c.customer_id
    СГРУППИРОВАТЬ ПО 1, 2, 3, 4
    ORDER BY 6 DESC) как new_table
ГДЕ
    new_table.count_tracks >= 50
    И new_table.country = 'США'
СГРУППИРОВАТЬ ПО new_table.state
ЗАКАЗАТЬ ПО 2 дес

Теперь нам нужно только добавить функцию агрегации count и предложение GROUP BY . Мы продолжаем работать с подзапросом, как если бы это был новый источник данных.

Выход:

состояние	количество(*)
СА	3
АЗ	1
Флорида	1
Ил	1
МА	1
НВ	1
Нью-Йорк	1
ТХ	1
UT	1
Вашингтон	1
Висконсин	1

Также можно использовать эту новую таблицу SQL для выполнения некоторых математических действий и выбора 10 лучших пользователей с наибольшей средней суммой денег, потраченных на заказ:

ВЫБИРАТЬ
    Пользовательский ИД,
    фамилия,
    round(total_purchased / number_of_purchases, 2) как avg_purchase
ОТ
    (ВЫБЕРИТЕ c. customer_id,
        c.last_name,
        c.страна,
        с.состояние,
        count(i.customer_id) как number_of_purchases,
        round(sum(i.total), 2) как total_purchased,
        (ВЫБИРАТЬ
                количество (il.track_id) n_tracks
            FROM invoice_line il
            INNER JOIN счет i на i.invoice_id = il.invoice_id
            ГДЕ i.customer_id = c.customer_id
            ) как count_tracks
    ОТ клиента c
    Счет INNER JOIN i на i.customer_id = c.customer_id
    СГРУППИРОВАТЬ ПО 1, 2, 3, 4
    ORDER BY 6 DESC) как new_table
ЗАКАЗАТЬ ПО 3 DESC
ПРЕДЕЛ 10

Мы используем два столбца в подзапросе для выполнения вычисления и получаем следующий результат:

customer_id	фамилия	avg_purchase
3	Трембле	11.11
6	Холи	10,72
29	Коричневый	10,15
18	Брукс	9,9
37	Циммерманн	9,4
27	серый	9,35
16	Харрис	9,28
42	Жирар	9,09
50	Муньос	8,91
53	Хьюз	8,91

Существует множество других способов использования данных в этом подзапросе, в зависимости от потребностей пользователя, или даже для создания более крупного подзапроса, если это необходимо.

Если подзапрос для этой цели используется слишком часто, может быть интересно создать представление в базе данных, в зависимости от ее архитектуры, и использовать это новое представление в качестве нового консолидированного источника. Проконсультируйтесь с вашей командой инженеров данных!

Заключение

Подзапросы SQL — это очень важный инструмент не только для специалистов по обработке и анализу данных, но и для всех, кто регулярно работает с SQL — определенно стоит потратить время на их понимание.

В этой статье мы рассмотрели следующее:

Как и когда использовать подзапрос
Использование подзапроса для создания нового столбца в основном запросе
Использование подзапроса в качестве фильтра
Использование подзапроса в качестве нового источника данных

Коррелированные и скалярные подзапросы в SQL

В этом руководстве мы разберемся, что такое подзапросы и каковы различные типы подзапросов на четких примерах.

Как правило, подзапросы — это не что иное, как запрос внутри запроса. Есть много способов, которыми мы можем написать подзапросы в запросе. Подзапросы иногда могут называться внутренними запросами, а основные запросы называются внешними запросами. Подзапросы могут быть вставлены в различные места, такие как предложение SELECT, FROM или WHERE основного запроса.

Существует три основных типа подзапросов

Скалярный подзапрос : Подзапрос, который возвращает только одну строку и один столбец. Или, вообще говоря, подзапрос, который возвращает только одно значение

Подзапросы из нескольких строк/столбцов : Подзапрос, который возвращает несколько строк или несколько столбцов или и то, и другое.
Коррелированный подзапрос : подзапрос, зависящий от результатов внешнего запроса.

Давайте подробно разберемся со скалярными и коррелированными подзапросами на примере в этом руководстве.

В этом уроке мы используем простую таблицу сотрудников, которая имеет 7 столбцов и 49 строк. Пример данных показан ниже.

Скалярные подзапросы

Скалярные подзапросы достаточно просты для понимания. Давайте рассмотрим пример, где мы хотим найти всех сотрудников из таблицы сотрудников, чья зарплата больше средней зарплаты. Лучший способ выяснить это — использовать концепцию скалярного подзапроса. Взгляните на следующий запрос.

В предложении WHERE запроса мы видим еще один простой запрос, который просто возвращает среднее значение всех зарплат. Если этот запрос выполняется отдельно, полученный результат равен 5818, что является средним значением всех зарплат. Теперь это значение можно использовать в качестве условия для предложения WHERE во внешнем запросе.

Результат вышеуказанного запроса:

EMPLOYEE_ID	ИМЯ ИМЯ	ФАМИЛИЯ	ТИП_РАБОТЫ	ЗАРПЛАТА	ИДЕНТИФИКАТОР_МЕНЕДЖЕРА	ID ОТДЕЛА
4	Майкл	Хартштейн	МК_МАН	13000	100	20
5	Пат	Фэй	МК_РЕП	6000	201	20
6	Сьюзан	Маврис	HR_REP	6500	101	40
7	Герман	Бэр	PR_REP	10000	101	70
8	Шелли	Хиггинс	AC_MGR	12008	101	110
9	Уильям	Гитц	AC_ACCOUNT	8300	205	110
10	Нина	Кочхар	AD_VP	17000	100	90
11	Лекс	Де Хаан	AD_VP	17000	100	90
12	Александр	Хунольд	ИТ_ПРОГ	9000	102	60
13	Брюс	Эрнст	ИТ_ПРОГ	6000	103	60
17	Нэнси	Гринберг	FI_MGR	12008	101	100
18	Дэниел	Фавиет	FI_ACCOUNT	9000	108	100
19	Джон	Чен	FI_ACCOUNT	8200	108	100
20	Исмаил	Скиарра	FI_ACCOUNT	7700	108	100
21	Хосе Мануэль	Урман	FI_ACCOUNT	7800	108	100
22	Луис	Попп	FI_ACCOUNT	6900	108	100
23	День	Рафаэли	ПУ_МАН	11000	100	30
29	Мэтью	Вайс	ST_MAN	8000	100	50
30	Адам	Фрипп	ST_MAN	8200	100	50
31	Паям	Кауфлинг	ST_MAN	7900	100	50
32	Шанта	Фоллман	ST_MAN	6500	100	50

Скалярные подзапросы можно использовать в различных предложениях, таких как SELECT, FROM, WHERE, JOIN, UPDATE, DELETE INSERT и т. д. Давайте попробуем переформулировать тот же пример, заменив подзапрос в другом предложении.

Приведенный выше запрос также возвращает те же результаты, что и предыдущий запрос.

Коррелированные подзапросы

Коррелированные подзапросы можно использовать в сценариях, где необходимо выполнить подзапрос для каждой строки-кандидата во внешнем запросе. В коррелированных подзапросах подзапрос возвращает разные наборы результатов для каждой строки-кандидата, рассматриваемой основным запросом. Таким образом, внешний запрос также зависит от внутреннего запроса.

Лучший способ понять это — рассмотреть пример. В предыдущем примере мы увидели, как получить данные о сотрудниках, чья зарплата больше, чем общая средняя зарплата. В этом примере попробуем найти сотрудников, чья зарплата больше, чем средняя зарплата их отдела.

В приведенном выше запросе мы видим, что DEPARTMENT_ID внешней таблицы используется внутри предложения WHERE внутреннего запроса.