هنگامیکه برای اولین بار، جستجو بر مبنای کلمات کلیدی (keyword search) بر روی مجموعهای از متون، به دنیای بازیابی اطلاعات معرفی شد شاید فقط یک ذهنیت مطرح میشد و آن یافتن لغت در متن بود. به بیان دیگر در آن زمان تنها بدنبال متونی میگشتیم که دقیقا شامل کلمه کلیدی مورد جستجوی کاربر باشند. روال کار نیز بدین صورت بود که از دل پرس و جوی کاربر، کلماتی بعنوان کلمات کلیدی استخراج میشد. سپس الگوریتم جستجو در میان متون موجود بدنبال متونی میگشت که دقیقا یک یا تمامی کلمات کلیدی در آن آمده باشند. اگر متنی شامل این کلمات بود به مجموعه جوابها اضافه میگردید و در غیر این صورت حذف میگشت. در پایان جستجو با استفاده از الگوریتمی، نتایج حاصل رتبه بندی میگشت و به ترتیب رتبه با کاربر نمایش داده میشد.
نکته مهمی که در این روش دیده میشود اینست که متون به تنهایی و بدون در نظر گرفتن کل مجموعه پردازش میشدند و اگر تصمیمی مبنی بر جواب بودن یک متن گرفته میشد، آن تصمیم کاملا متکی به همان متن و مستقل از متون دیگر گرفته میشد. در آن سالها هیچ توجهی به وابستگی موجود بین متون مختلف و ارتباط بین آنها نمیشد که این مسئله یکی از عوامل پایین بودن دقت جستجوها بشمار میرفت.
بر اساس دیدگاه LSI اسناد مشابه با هم، اسنادی هستند که لغات مشابه یا مشترک بیشتری داشته باشند. توجه داشته باشید تنها نمیگوییم لغات مشترک بیشتری بلکه از واژه لغات مشابه نیز استفاده میکنیم. چرا که بر اساس LSI دو سند ممکن است هیچ لغت مشترکی نداشته باشند (یعنی لغات یکسان نداشته باشند) اما لغاتی در آنها وجود داشته باشد که به لحاظی معنایی و مفهومی هم معنا و یا مرتبط به هم باشند. بعنوان مثال لغات شش و ریه دو لغت متفاوت اما مرتبط با یکدیگر هستند و اگر دو لغات در دوسند آورده شوند میتوان حدس زد که ارتباط و شباهتی معنایی بین آنها وجود دارد. به روش هایی که بر اساس این دیدگاه ارائه میشوند روشهای جستجوی معنایی نیز گفته میشود. این دیدگاه مشابه دیدگاه انسانی در مواجهه با متون نیز است. انسان هنگامی که دو متن را با یکدیگر مقایسه میکند تنها بدنبال لغات یکسان در آنها نمیگردد بلکه شباهتهای معنایی بین لغات را نیز در نظر میگیرد این اصل و نگرش پایه و اساس الگوریتم LSI و همچنین حوزه ای از علم بازیابی اطلاعات بنام مدل سازی موضوعی (Topic Modeling) میباشد.
برای آنکه با دیدگاه LSI بیشتر آشنا شوید در اینجا مثالی از نحوه عملکرد آن میزنیم. فرض کنید میخواهیم بر روی مجموعه ای از اسناد در حوزه زیست شناسی اندیس گذاری کنیم. بر مبنای روش LSI چنانچه لغاتی مانند کروموزم، ژن و DNA در اسناد زیادی در کنار یکدیگر آورده شوند (یا بعبارتی اسناد مشترک باهم زیادی داشته باشند)، الگوریتم جستجو چنین برداشت میکند که به احتمال زیاد نوعی رابطه معنایی بین آنها وجود دارد. به همین دلیل اگر شما پرس و جویی را با کلمه کلیدی "کروموزوم" اجرا نمایید، الگوریتم علاوه بر مقالاتی که مستقیما واژه کروموزوم در آنها وجود دارد، اسنادی که شامل لغات "DNA" و "ژن" نیز باشند را بعنوان نتیجه به شما باز خواهد گرداند. در واقع میتوان گفت الگوریتم جستجو به پرس و جوی شما این دو واژه را نیز اضافه میکند که همان بسط دادن پرس و جوی شما است. دقت داشته باشید که الگوریتم جستجو هیچ اطلاع و دانشی از معنای لغات مذکور ندارد و تنها بر اساس تحلیلهای ریاضی به این نتیجه میرسد که در بخشهای بعدی چگونگی آن را برای شما بازگو خواهیم نمود. یکی از برتریهای مهم LSI نسبت به روشهای مبتنی بر کلمات کلیدی (keyword based) این است که در LSI، ما به recall بالاتری دست پیدا میکنیم، بدین معنی که از کل جوابهای موجود برای پرس و جوی شما، جوابهای بیشتری به کاربر نمایش داده خواهند شد.