دراین قسمت قصد داریم عملگر nested loop حاصل از نوشتن جوینها را دقیقتر بررسی کنیم. یک حلقهی تو در تو، از هر ردیف ورودی (دیتاست خارجی) برای یافتن ردیفهایی (دیتاست درونی) که نوع جوین را برآورده میکنند، استفاده میکند.
بررسی مفهوم دیتاست خارجی و درونی
ابتدا در management studio از منوی Query، گزینهی Include actual execution plan را انتخاب میکنیم. سپس کوئریهای زیر را اجرا میکنیم:
این کوئری یک جوین بین جداول OrderLines و Orders را تشکیل دادهاست؛ به همراه کوئری پلن زیر:
در اینجا دیتاست خارجی، همان index seek بالایی است که بر روی جدول Orders انجام شدهاست. اولین ردیف بازگشت داده شدهی توسط آن به همراه OrderID مربوطه را به حلقهی تو در توی Inner Join ارسال میکند. سپس index seek دوم بر روی جدول OrderLines، بر اساس OrderID دیتاست خارجی، ردیف مرتبطی را در صورت وجود یافته و به حلقهی تو در توی Inner Join بازگشت میدهد که در نهایت به select ارسال میشود و این عملیات به همین ترتیب ادامه پیدا میکند. این خلاصهی کاری است که یک حلقهی تو در تو انجام میدهد.
سؤال: اگر جای این دیتاستها را عوض کنیم چه اتفاقی رخ خواهد داد؟
در کوئری زیر توسط گزینهی FORCE ORDER سبب شدهایم تا جای دیتاستهای OUTER/INNER تغییر کند (البته این query hint، کاربرد عملی ندارد و صرفا جهت نمایش دیتاستها از آن استفاده کردهایم):
اینبار در کوئری پلن تولید شده، index seek بالایی بر روی جدول OrderLines، دیتاست خارجی را تشکیل میدهد و index seek دوم بر روی جدول Orders، دیتاست درونی را:
یک نکته: در این تصاویر بجای nested loop، از عملگر Hash Match استفاده شدهاست. اگر بخواهیم بهینه سازی کوئری را وادار کنیم تا از nested loop استفاده کند، میتوان کوئری فوق را توسط یک INNER LOOP JOIN به صورت زیر نوشت:
که یک چنین کوئری پلنی را تولید میکند:
همانطور که مشاهده میکنید اینبار به علت بالا رفتن تعداد ردیفهایی که باید پردازش کند، به یک پلن بسیار غیر بهینه رسیدهاست که برای بهبود آن مجبور شدهاست Parallelism را نیز فعال کند.
در این حالت اگر هر سه کوئری فوق را با هم اجرا کنیم، تا بتوانیم هزینهی آنها را در کوئری پلن نهایی تولید شده، با یکدیگر مقایسه کنیم، هزینهی کوئری اول صفر درصد، کوئری دوم 1 درصد و کوئری سوم 99 درصد نسبت به کل batch محاسبه میشود. علت آن را نیز در برگهی messages، با مشاهدهی logical reads 477304 مربوط به کوئری سوم میتوان مشاهده کرد که نسبت به سایر کوئریها بسیار بیشتر است. بنابراین بهتر است در کار بهینه ساز کوئریها به صورت دستی دخالت نکنیم!
بهبود کارآیی یک کوئری، با حذف حلقهی تو در توی کوئری پلن آن در حالت Key lookup
کوئری زیر را با فرض انتخاب گزینهی Include actual execution plan در منوی کوئری، اجرا میکنیم:
این کوئری هرچند به همراه یک جوین نیست، اما دارای کوئری پلنی دارای یک nested loop است:
ایندکسهایی که در این کوئری پلن استفاده شدهاند، شامل موارد پیشفرض زیر هستند؛ یکی بر روی OrderID که کلید اصلی جدول است، تشکیل شده و دیگری بر روی ContactPersonID که در قسمت where کوئری فوق مورد استفاده قرار گرفتهاست:
علت وجود عملگر key lookup بر روی ایندکس PK_Sales_Orders در اینجا این است که ایندکس FK_Sales_Orders_ContactPersonID، ستونهای کوئری نوشته شده را include نکردهاست. به همین جهت مجبور شدهاست آنها را از clustered index تعریف شده دریافت کند.
برای بهبود این وضعیت، NONCLUSTERED INDEX تعریف شده را به صورت زیر تغییر میدهیم تا ستونهای OrderDate و CustomerPurchaseOrderNumber را INCLUDE کند:
اکنون اگر مجددا کوئری قبلی را اجرا کنیم:
به این کوئری پلن دارای index seek بدون nested loop میرسیم:
چون ایندکس جدید تعریف شده کاملا کوئری ما را پوشش میدهد، دیگر نیازی به ایجاد یک nested loop، جهت کار با چندین index متفرقه نیست.
بهبود کارآیی یک کوئری، با حذف حلقهی تو در توی کوئری پلن آن در حالت RID lookup
در اینجا یک جدول کپی را از روی جدول اصلی Orders ایجاد کردهایم؛ به همراه تعریف یک NONCLUSTERED INDEX بر روی ستون ContactPersonID آن:
سپس کوئری زیر را که همانند کوئری مثال قبلی است، بر روی این جدول کپی اجرا میکنیم:
نتیجهی آن تولید کوئری پلن زیر است:
در اینجا یک nested loop را به همراه RID lookup داریم (RID به معنای row id است). همچنین واژهی heap نیز ذکر شدهاست. در این حالت اطلاعات یک چنین جدولی بدون هیچگونه ترتیبی ذخیره شدهاند؛ بنابراین نیاز به شماره ردیف آن (RID) برای برقراری ارتباطات میباشد. Key lookup زمانی رخ میدهند که یک جدول دارای یک clustered index باشد و RID lookup، در حالت عکس آن رخ میدهد. دقیقا مانند جدول کپی ایجاد شده، که دارای یک clustered index نیست.
در صورت مشاهدهی RID lookup نیز میتوانیم ستونهایی از کوئری را که در NONCLUSTERED INDEX ذکر نشدهاند، include کنیم:
و در این حالت اگر همان کوئری قبلی را مجددا اجرا کنیم، به کوئری پلن دارای index seek زیر خواهیم رسید:
بررسی مفهوم دیتاست خارجی و درونی
ابتدا در management studio از منوی Query، گزینهی Include actual execution plan را انتخاب میکنیم. سپس کوئریهای زیر را اجرا میکنیم:
USE [WideWorldImporters]; GO SET STATISTICS IO ON; GO /* What's are the inner and outer data sets? */ SELECT [ol].[OrderLineID], [o].[CustomerID] FROM [Sales].[OrderLines] [ol] INNER JOIN [Sales].[Orders] [o] ON [ol].[OrderID] = [o].[OrderID] WHERE [o].[CustomerID] = 185; GO
در اینجا دیتاست خارجی، همان index seek بالایی است که بر روی جدول Orders انجام شدهاست. اولین ردیف بازگشت داده شدهی توسط آن به همراه OrderID مربوطه را به حلقهی تو در توی Inner Join ارسال میکند. سپس index seek دوم بر روی جدول OrderLines، بر اساس OrderID دیتاست خارجی، ردیف مرتبطی را در صورت وجود یافته و به حلقهی تو در توی Inner Join بازگشت میدهد که در نهایت به select ارسال میشود و این عملیات به همین ترتیب ادامه پیدا میکند. این خلاصهی کاری است که یک حلقهی تو در تو انجام میدهد.
سؤال: اگر جای این دیتاستها را عوض کنیم چه اتفاقی رخ خواهد داد؟
در کوئری زیر توسط گزینهی FORCE ORDER سبب شدهایم تا جای دیتاستهای OUTER/INNER تغییر کند (البته این query hint، کاربرد عملی ندارد و صرفا جهت نمایش دیتاستها از آن استفاده کردهایم):
SELECT [ol].[OrderLineID], [o].[CustomerID] FROM [Sales].[OrderLines] [ol] INNER JOIN [Sales].[Orders] [o] ON [ol].[OrderID] = [o].[OrderID] WHERE [o].[CustomerID] = 185 OPTION (FORCE ORDER);
یک نکته: در این تصاویر بجای nested loop، از عملگر Hash Match استفاده شدهاست. اگر بخواهیم بهینه سازی کوئری را وادار کنیم تا از nested loop استفاده کند، میتوان کوئری فوق را توسط یک INNER LOOP JOIN به صورت زیر نوشت:
SELECT [ol].[OrderLineID], [o].[CustomerID] FROM [Sales].[OrderLines] [ol] INNER LOOP JOIN [Sales].[Orders] [o] ON [ol].[OrderID] = [o].[OrderID] WHERE [o].[CustomerID] = 185 OPTION (FORCE ORDER); GO
همانطور که مشاهده میکنید اینبار به علت بالا رفتن تعداد ردیفهایی که باید پردازش کند، به یک پلن بسیار غیر بهینه رسیدهاست که برای بهبود آن مجبور شدهاست Parallelism را نیز فعال کند.
در این حالت اگر هر سه کوئری فوق را با هم اجرا کنیم، تا بتوانیم هزینهی آنها را در کوئری پلن نهایی تولید شده، با یکدیگر مقایسه کنیم، هزینهی کوئری اول صفر درصد، کوئری دوم 1 درصد و کوئری سوم 99 درصد نسبت به کل batch محاسبه میشود. علت آن را نیز در برگهی messages، با مشاهدهی logical reads 477304 مربوط به کوئری سوم میتوان مشاهده کرد که نسبت به سایر کوئریها بسیار بیشتر است. بنابراین بهتر است در کار بهینه ساز کوئریها به صورت دستی دخالت نکنیم!
بهبود کارآیی یک کوئری، با حذف حلقهی تو در توی کوئری پلن آن در حالت Key lookup
کوئری زیر را با فرض انتخاب گزینهی Include actual execution plan در منوی کوئری، اجرا میکنیم:
SELECT [ContactPersonID], [OrderDate], [CustomerPurchaseOrderNumber] FROM [Sales].[Orders] WHERE [ContactPersonID] = 3144;
ایندکسهایی که در این کوئری پلن استفاده شدهاند، شامل موارد پیشفرض زیر هستند؛ یکی بر روی OrderID که کلید اصلی جدول است، تشکیل شده و دیگری بر روی ContactPersonID که در قسمت where کوئری فوق مورد استفاده قرار گرفتهاست:
ALTER TABLE [Sales].[Orders] ADD CONSTRAINT [PK_Sales_Orders] PRIMARY KEY CLUSTERED ( [OrderID] ASC ) GO CREATE NONCLUSTERED INDEX [FK_Sales_Orders_ContactPersonID] ON [Sales].[Orders] ( [ContactPersonID] ASC )
برای بهبود این وضعیت، NONCLUSTERED INDEX تعریف شده را به صورت زیر تغییر میدهیم تا ستونهای OrderDate و CustomerPurchaseOrderNumber را INCLUDE کند:
CREATE NONCLUSTERED INDEX [FK_Sales_Orders_ContactPersonID] ON [Sales].[Orders] ( [ContactPersonID] ASC ) INCLUDE ( [OrderDate], [CustomerPurchaseOrderNumber] ) WITH (DROP_EXISTING = ON) ON [USERDATA]; GO
SELECT [ContactPersonID], [OrderDate], [CustomerPurchaseOrderNumber] FROM [Sales].[Orders] WHERE [ContactPersonID] = 3144;
چون ایندکس جدید تعریف شده کاملا کوئری ما را پوشش میدهد، دیگر نیازی به ایجاد یک nested loop، جهت کار با چندین index متفرقه نیست.
بهبود کارآیی یک کوئری، با حذف حلقهی تو در توی کوئری پلن آن در حالت RID lookup
در اینجا یک جدول کپی را از روی جدول اصلی Orders ایجاد کردهایم؛ به همراه تعریف یک NONCLUSTERED INDEX بر روی ستون ContactPersonID آن:
USE [WideWorldImporters] GO DROP TABLE [Sales].[Copy_Orders] GO SELECT * INTO [Sales].[Copy_Orders] FROM [Sales].[Orders]; GO CREATE NONCLUSTERED INDEX [NCI_Copy_Orders_ContactPersonID] ON [Sales].[Copy_Orders] ( [ContactPersonID] ); GO
SELECT [ContactPersonID], [OrderDate], [CustomerPurchaseOrderNumber] FROM [Sales].[Copy_Orders] WHERE [ContactPersonID] = 3144;
در اینجا یک nested loop را به همراه RID lookup داریم (RID به معنای row id است). همچنین واژهی heap نیز ذکر شدهاست. در این حالت اطلاعات یک چنین جدولی بدون هیچگونه ترتیبی ذخیره شدهاند؛ بنابراین نیاز به شماره ردیف آن (RID) برای برقراری ارتباطات میباشد. Key lookup زمانی رخ میدهند که یک جدول دارای یک clustered index باشد و RID lookup، در حالت عکس آن رخ میدهد. دقیقا مانند جدول کپی ایجاد شده، که دارای یک clustered index نیست.
در صورت مشاهدهی RID lookup نیز میتوانیم ستونهایی از کوئری را که در NONCLUSTERED INDEX ذکر نشدهاند، include کنیم:
CREATE NONCLUSTERED INDEX [NCI_Copy_Orders_ContactPersonID] ON [Sales].[Copy_Orders] ( [ContactPersonID] ASC ) INCLUDE ( [OrderDate], [CustomerPurchaseOrderNumber] ) WITH (DROP_EXISTING = ON) ON [USERDATA]; GO