.NET Tips | بررسی کارآیی کوئری‌ها در SQL Server - قسمت هفتم - بررسی عملگر Nested loop‌ در یک Query Plan

اندازه‌ی قلم متن

تخمین مدت زمان مطالعه‌ی مطلب: پنج دقیقه

دراین قسمت قصد داریم عملگر nested loop حاصل از نوشتن جوین‌ها را دقیق‌تر بررسی کنیم. یک حلقه‌ی تو در تو، از هر ردیف ورودی (دیتاست خارجی) برای یافتن ردیف‌هایی (دیتاست درونی) که نوع جوین را برآورده می‌کنند، استفاده می‌کند.

بررسی مفهوم دیتاست خارجی و درونی

ابتدا در management studio از منوی Query، گزینه‌ی Include actual execution plan را انتخاب می‌کنیم. سپس کوئری‌های زیر را اجرا می‌کنیم:

USE [WideWorldImporters];
GO

SET STATISTICS IO ON;
GO


/*
What's are the inner and outer
data sets?
*/
SELECT
    [ol].[OrderLineID],
    [o].[CustomerID]
FROM [Sales].[OrderLines] [ol]
    INNER JOIN [Sales].[Orders] [o]
    ON [ol].[OrderID] = [o].[OrderID]
WHERE [o].[CustomerID] = 185;
GO

این کوئری یک جوین بین جداول OrderLines و Orders را تشکیل داده‌است؛ به همراه کوئری پلن زیر:

در اینجا دیتاست خارجی، همان index seek بالایی است که بر روی جدول Orders انجام شده‌است. اولین ردیف بازگشت داده شده‌ی توسط آن به همراه OrderID مربوطه را به حلقه‌ی تو در توی Inner Join ارسال می‌کند. سپس index seek دوم بر روی جدول OrderLines‌، بر اساس OrderID دیتاست خارجی، ردیف مرتبطی را در صورت وجود یافته و به حلقه‌ی تو در توی Inner Join بازگشت می‌دهد که در نهایت به select ارسال می‌شود و این عملیات به همین ترتیب ادامه پیدا می‌کند. این خلاصه‌ی کاری است که یک حلقه‌ی تو در تو انجام می‌دهد.

سؤال: اگر جای این دیتاست‌ها را عوض کنیم چه اتفاقی رخ خواهد داد؟
در کوئری زیر توسط گزینه‌ی FORCE ORDER سبب شده‌ایم تا جای دیتاست‌های OUTER/INNER تغییر کند (البته این query hint، کاربرد عملی ندارد و صرفا جهت نمایش دیتاست‌ها از آن استفاده کرده‌ایم):

SELECT
    [ol].[OrderLineID],
    [o].[CustomerID]
FROM [Sales].[OrderLines] [ol]
    INNER JOIN [Sales].[Orders] [o]
    ON [ol].[OrderID] = [o].[OrderID]
WHERE [o].[CustomerID] = 185
OPTION (FORCE ORDER);

اینبار در کوئری پلن تولید شده، index seek بالایی بر روی جدول OrderLines، دیتاست خارجی را تشکیل می‌دهد و index seek دوم بر روی جدول Orders، دیتاست درونی را:

یک نکته: در این تصاویر بجای nested loop، از عملگر Hash Match استفاده شده‌است. اگر بخواهیم بهینه سازی کوئری را وادار کنیم تا از nested loop استفاده کند، می‌توان کوئری فوق را توسط یک INNER LOOP JOIN به صورت زیر نوشت:

SELECT
    [ol].[OrderLineID],
    [o].[CustomerID]
FROM [Sales].[OrderLines] [ol]
    INNER LOOP JOIN [Sales].[Orders] [o]
    ON [ol].[OrderID] = [o].[OrderID]
WHERE [o].[CustomerID] = 185
OPTION (FORCE ORDER);
GO

که یک چنین کوئری پلنی را تولید می‌کند:

همانطور که مشاهده می‌کنید اینبار به علت بالا رفتن تعداد ردیف‌هایی که باید پردازش کند، به یک پلن بسیار غیر بهینه رسیده‌است که برای بهبود آن مجبور شده‌است Parallelism را نیز فعال کند.

در این حالت اگر هر سه کوئری فوق را با هم اجرا کنیم، تا بتوانیم هزینه‌ی آن‌ها را در کوئری پلن نهایی تولید شده، با یکدیگر مقایسه کنیم، هزینه‌ی کوئری اول صفر درصد، کوئری دوم 1 درصد و کوئری سوم 99 درصد نسبت به کل batch محاسبه می‌شود. علت آن را نیز در برگه‌ی messages، با مشاهده‌ی logical reads 477304 مربوط به کوئری سوم می‌توان مشاهده کرد که نسبت به سایر کوئری‌ها بسیار بیشتر است. بنابراین بهتر است در کار بهینه ساز کوئری‌ها به صورت دستی دخالت نکنیم!

بهبود کارآیی یک کوئری، با حذف حلقه‌ی تو در توی کوئری پلن آن در حالت Key lookup

کوئری زیر را با فرض انتخاب گزینه‌ی Include actual execution plan در منوی کوئری، اجرا می‌کنیم:

SELECT
    [ContactPersonID],
    [OrderDate],
    [CustomerPurchaseOrderNumber]
FROM [Sales].[Orders]
WHERE [ContactPersonID] = 3144;

این کوئری هرچند به همراه یک جوین نیست، اما دارای کوئری پلنی دارای یک nested loop است:

ایندکس‌هایی که در این کوئری پلن استفاده شده‌اند، شامل موارد پیش‌فرض زیر هستند؛ یکی بر روی OrderID که کلید اصلی جدول است، تشکیل شده و دیگری بر روی ContactPersonID که در قسمت where کوئری فوق مورد استفاده قرار گرفته‌است:

ALTER TABLE [Sales].[Orders] ADD  CONSTRAINT [PK_Sales_Orders] PRIMARY KEY CLUSTERED 
(
[OrderID] ASC
)

GO

CREATE NONCLUSTERED INDEX [FK_Sales_Orders_ContactPersonID] ON [Sales].[Orders]
(
[ContactPersonID] ASC
)

علت وجود عملگر key lookup بر روی ایندکس PK_Sales_Orders در اینجا این است که ایندکس FK_Sales_Orders_ContactPersonID، ستون‌های کوئری نوشته شده را include نکرده‌است. به همین جهت مجبور شده‌است آن‌ها را از clustered index تعریف شده دریافت کند.
برای بهبود این وضعیت، NONCLUSTERED INDEX تعریف شده را به صورت زیر تغییر می‌دهیم تا ستون‌های OrderDate و CustomerPurchaseOrderNumber را INCLUDE کند:

CREATE NONCLUSTERED INDEX [FK_Sales_Orders_ContactPersonID]
ON [Sales].[Orders] (
[ContactPersonID] ASC
)
INCLUDE (
[OrderDate], [CustomerPurchaseOrderNumber]
)
WITH (DROP_EXISTING = ON)
ON [USERDATA];
GO

اکنون اگر مجددا کوئری قبلی را اجرا کنیم:

SELECT
    [ContactPersonID],
    [OrderDate],
    [CustomerPurchaseOrderNumber]
FROM [Sales].[Orders]
WHERE [ContactPersonID] = 3144;

به این کوئری پلن دارای index seek بدون nested loop می‌رسیم:

چون ایندکس جدید تعریف شده کاملا کوئری ما را پوشش می‌دهد، دیگر نیازی به ایجاد یک nested loop، جهت کار با چندین index متفرقه نیست.

بهبود کارآیی یک کوئری، با حذف حلقه‌ی تو در توی کوئری پلن آن در حالت RID lookup

در اینجا یک جدول کپی را از روی جدول اصلی Orders ایجاد کرده‌ایم؛ به همراه تعریف یک NONCLUSTERED INDEX بر روی ستون ContactPersonID آن:

USE [WideWorldImporters]
GO

DROP TABLE [Sales].[Copy_Orders]
GO

SELECT *
INTO [Sales].[Copy_Orders]
FROM [Sales].[Orders];
GO

CREATE NONCLUSTERED INDEX [NCI_Copy_Orders_ContactPersonID]
ON [Sales].[Copy_Orders] (
[ContactPersonID]
);
GO

سپس کوئری زیر را که همانند کوئری مثال قبلی است، بر روی این جدول کپی اجرا می‌کنیم:

SELECT
    [ContactPersonID],
    [OrderDate],
    [CustomerPurchaseOrderNumber]
FROM [Sales].[Copy_Orders]
WHERE [ContactPersonID] = 3144;

نتیجه‌ی آن تولید کوئری پلن زیر است:

در اینجا یک nested loop را به همراه RID lookup داریم (RID به معنای row id است). همچنین واژه‌ی heap نیز ذکر شده‌است. در این حالت اطلاعات یک چنین جدولی بدون هیچگونه ترتیبی ذخیره شده‌اند؛ بنابراین نیاز به شماره ردیف آن (RID) برای برقراری ارتباطات می‌باشد. Key lookup زمانی رخ می‌دهند که یک جدول دارای یک clustered index باشد و RID lookup، در حالت عکس آن رخ می‌دهد. دقیقا مانند جدول کپی ایجاد شده، که دارای یک clustered index نیست.

در صورت مشاهده‌ی RID lookup نیز می‌توانیم ستون‌هایی از کوئری را که در NONCLUSTERED INDEX ذکر نشده‌اند، include کنیم:

CREATE NONCLUSTERED INDEX [NCI_Copy_Orders_ContactPersonID]
ON [Sales].[Copy_Orders] (
[ContactPersonID] ASC
)
INCLUDE (
[OrderDate], [CustomerPurchaseOrderNumber]
)
WITH (DROP_EXISTING = ON)
ON [USERDATA];
GO

و در این حالت اگر همان کوئری قبلی را مجددا اجرا کنیم، به کوئری پلن دارای index seek زیر خواهیم رسید:

بررسی کارآیی کوئری‌ها در SQL Server - قسمت هفتم - بررسی عملگر Nested loop‌ در یک Query Plan

مطالب مشابه