پیدا کردن آیتم‌های تکراری در یک لیست به کمک LINQ
اندازه‌ی قلم متن
تخمین مدت زمان مطالعه‌ی مطلب: سه دقیقه


گاهی از اوقات نیاز می‌شود تا در یک لیست، آیتم‌های تکراری موجود را مشخص کرد. به صورت پیش فرض متد Distinct برای حذف مقادیر تکراری در یک لیست با استفاده از LINQ موجود است که البته آن‌هم اما و اگرهایی دارد که در ادامه به آن پرداخته خواهد شد، اما باز هم این مورد پاسخ سؤال اصلی نیست (نمی‌خواهیم موارد تکراری را حذف کنیم).

برای حذف آیتم‌های تکراری از یک لیست جنریک می‌توان متد زیر را نوشت:
public static List<T> RemoveDuplicates<T>(List<T> items)
{
return (from s in items select s).Distinct().ToList();
}
برای مثال:
public static void TestRemoveDuplicates()
{
List<string> sampleList =
new List<string>() { "A1", "A2", "A3", "A1", "A2", "A3" };
sampleList = RemoveDuplicates(sampleList);
foreach (var item in sampleList)
Console.WriteLine(item);
}
این متد بر روی لیست‌هایی با نوع‌های اولیه مانند string‌ و int و امثال آن درست کار می‌کند. اما اکنون مثال زیر را در نظر بگیرید:
public class Employee
{
public int ID { get; set; }
public string FName { get; set; }
public int Age { get; set; }
}

public static void TestRemoveDuplicates()
{
List<Employee> lstEmp = new List<Employee>()
{
new Employee(){ ID=1, Age=20, FName="F1"},
new Employee(){ ID=2, Age=21, FName="F2"},
new Employee(){ ID=1, Age=20, FName="F1"},
};

lstEmp = RemoveDuplicates<Employee>(lstEmp);

foreach (var item in lstEmp)
Console.WriteLine(item.FName);
}
اگر متد TestRemoveDuplicates را اجرا نمائید، رکورد تکراری این لیست جنریک حذف نخواهد شد؛ زیرا متد distinct بکارگرفته شده نمی‌داند اشیایی از نوع کلاس سفارشی Employee را چگونه باید با هم مقایسه نماید تا بتواند موارد تکراری آن‌ها را حذف کند.
برای رفع این مشکل باید از آرگومان دوم متد distinct جهت معرفی وهله‌ای از کلاسی که اینترفیس IEqualityComparer را پیاده سازی می‌کند، کمک گرفت.
public static IEnumerable<TSource> Distinct<TSource>(this IEnumerable<TSource> source, IEqualityComparer<TSource> comparer);
که نمونه‌ای از پیاده سازی آن به شرح زیر می‌تواند باشد:

public class EmployeeComparer : IEqualityComparer<Employee>
{
public bool Equals(Employee x, Employee y)
{
//آیا دقیقا یک وهله هستند؟
if (Object.ReferenceEquals(x, y)) return true;

//آیا یکی از وهله‌ها نال است؟
if (Object.ReferenceEquals(x, null) ||
Object.ReferenceEquals(y, null))
return false;

return x.Age == y.Age && x.FName == y.FName && x.ID == y.ID;
}

public int GetHashCode(Employee obj)
{
if (Object.ReferenceEquals(obj, null)) return 0;
int hashTextual = obj.FName == null ? 0 : obj.FName.GetHashCode();
int hashDigital = obj.Age.GetHashCode();
return hashTextual ^ hashDigital;
}
}
اکنون اگر یک overload برای متد RemoveDuplicates با درنظر گرفتن IEqualityComparerتهیه کنیم، به شکل زیر خواهد بود:
public static List<T> RemoveDuplicates<T>(List<T> items, IEqualityComparer<T> comparer)
{
return (from s in items select s).Distinct(comparer).ToList();
}
به این صورت متد آزمایشی ما به شکل زیر (که وهله‌ای از کلاس EmployeeComparer‌ به آن ارسال شده) تغییر خواهد کرد:
public static void TestRemoveDuplicates()
{
List<Employee> lstEmp = new List<Employee>()
{
new Employee(){ ID=1, Age=20, FName="F1"},
new Employee(){ ID=2, Age=21, FName="F2"},
new Employee(){ ID=1, Age=20, FName="F1"},
};

lstEmp = RemoveDuplicates(lstEmp, new EmployeeComparer());

foreach (var item in lstEmp)
Console.WriteLine(item.FName);
}
پس از این تغییر، حاصل این متد تنها دو رکورد غیرتکراری می‌باشد.

سؤال: برای یافتن آیتم‌های تکراری یک لیست چه باید کرد؟
احتمالا مقاله "روش‌هایی برای حذف رکوردهای تکراری" را به خاطر دارید. اینجا هم می‌توان کوئری LINQ ایی را نوشت که رکوردها را بر اساس سن، گروه بندی کرده و سپس گروه‌هایی را که بیش از یک رکورد دارند، انتخاب نماید.
public static void FindDuplicates()
{
List<Employee> lstEmp = new List<Employee>()
{
new Employee(){ ID=1, Age=20, FName="F1"},
new Employee(){ ID=2, Age=21, FName="F2"},
new Employee(){ ID=1, Age=20, FName="F1"},
};

var query = from c in lstEmp
group c by c.Age into g
where g.Count() > 1
select new { Age = g.Key, Count = g.Count() };

foreach (var item in query)
{
Console.WriteLine("Age {0} has {1} records", item.Age, item.Count);
}
}


Vote on iDevCenter
  • #
    ‫۸ سال و ۶ ماه قبل، پنجشنبه ۱۲ فروردین ۱۳۹۵، ساعت ۲۱:۴۸
    دو سوال:
    1) چرا پراپرتی Id در محاسبه هش کد شرکت داده نشده است؟
    2) می‌توانستیم ب جای عملگر ^ از عملگر + و یا سایر عملگر استفاده کنیم (به نحوی که هش کد دو شیء یکسان، برابر باشد)؟
    • #
      ‫۸ سال و ۶ ماه قبل، پنجشنبه ۱۲ فروردین ۱۳۹۵، ساعت ۲۲:۵۰
      - چون در متد Equals استفاده شده بوده؛ ولی ذکر آن هم جهت تکمیل بحث مفید است.
      - بستگی به الگوریتم مدنظر دارد. برای مثال در دات نت بیشتر FNV hash برای GetCodeHash استفاده می‌شود. اطلاعات بیشتر: ^ و ^
  • #
    ‫۱ سال و ۲ ماه قبل، چهارشنبه ۳۱ خرداد ۱۴۰۲، ساعت ۱۵:۱۷
    یک نکته‌ی تکمیلی: اضافه شدن متد جدید DistinctBy به دات نت 6

    همانطور که در این مطلب نیز بررسی شد، جهت کار با متد Distinct، باید روش مقایسه‌ی اشیاء پیچیده، توسط یک پیاده سازی اختصاصی از IEqualityComparer مشخص شود. دات نت 6 جهت ساده‌کردن این عملیات، متد DistinctBy را اضافه کرده‌است که توسط آن می‌توان یک خاصیت شیء مدنظر را به عنوان کلید مقایسه مشخص کرد. روش پیاده سازی آن‌را در هم در اینجا می‌توانید مشاهده کنید که در پشت صحنه از یک HashSet استفاده می‌کند. یعنی کلیدهای مشخص شده‌ی توسط DistinctBy را یکی یکی به HashSet اضافه می‌کند. این ساختار داده‌ی ویژه، مقادیر تکراری را قبول نمی‌کند. اگر متد Add آن، true را برگرداند، یعنی مقادیر جدیدی اضافه شده‌است و اگر false را برگرداند، یعنی این مقدار، تکراری است و اضافه نخواهد شد. برای مثال فرض کنید لیستی را به صورت زیر تعریف کرده‌اید:
    var list = new List<int> {1,1,2,2,3,3,3,4,4,4};
    یکی از ده‌ها روش یافتن اعضای تکراری این لیست که سرعت بسیار بالایی هم دارد، استفاده از یک HashSet و متد Add آن است؛ به صورت زیر:
    var hash = new HashSet<int>();
    var duplicates = list.Where(i => !hash.Add(i));
    اگر متد Add، مقدار false را برگرداند، یعنی آیتم مدنظر تکراری است.

    یک مثال: روش استفاده از متد DistinctBy بر روی یک خاصیت مشخص و خروجی نهایی حاصل از آن:
    var movies = new List<Movie>
    {
        new Movie("Titanic", 1998, 4.5f),
        new Movie("The Fifth Element", 1997, 4.6f),
        new Movie("Terminator 2", 1991, 4.7f),
        new Movie("Avatar", 2009, 5),
        new Movie("Platoon", 1986, 4),
        new Movie("My Neighbor Totoro", 1988, 5)
    };
    
    var distinctRatings = movies.DistinctBy(movie => movie.Rating);
    
    // Output:
    // Titanic,The Fifth Element,Terminator 2,Avatar,Platoon