اگر بخواهیم دادههای زیادی که به صورت تکراری وارد شدهاند را پاک کنیم، مبحث performance بسیار مهم خواهد بود. چرا که هنگام پاک کردن داده، احتمال بروز deadlock بسیار زیاد است و زمان کمتر به معنی احتمال خطای کمتر است.
شما برای پاک کردن دادههای تکراری از کدام روش استفاده میکنید؟ کوئریهای روان و خوانا به سبک "GROUP BY" یا کوئریهای بازگشتی استاندارد به سبک "CTE"؟
In this video, you will get to experience bringing SQL and Spark together as a unified data platform running on Kubernetes and learn how:
• Data virtualization integrates data from disparate sources, locations and formats, without replicating or moving the data, to create a single "virtual" data layer
• Data Lake - SQL 2019 provides SQL and Spark query capabilities over a scalable storage, across relational and big data
• Data Mart provides an ability to scale out storage for super-fast performance over big data or data from other external sources