اندازهی قلم متن
تخمین مدت زمان مطالعهی مطلب:
نه دقیقه
سرچشمه Kafka از LinkedIn آغاز و سپس در سال 2011 توسط Apache بصورت open source ارائه شد. هدف آن ارائه یک بستر جریان دادهای توزیع شدهاست که اساس آن، Publish-Subscribe میباشد . سادگی اضافه کردن قابلیتهای مقیاس پذیری افقی، تحمل خطا و افزایش کارآیی توسط این بستر باعث شدهاست که هزاران شرکت از آن بعنوان بستر ارتباطی قسمتهای مختلف سیستمها و زیرسیستمهای خود استفاده کنند.
همانطور که گفته شد وظیفه و هدف اصلی Apache Kafka، ارائه یک بستر برای مدیریت و کنترل جریانهای اطلاعاتی با کارآیی بسیار بالا، در سیستمها و زیرسیستمهای مختلف است. یعنی شما میتوانید با ایجاد کردن یک Pipeline برای جریان اطلاعات خود، وابستگی مستقیم سیستمها و زیرسیستمها را از بین ببرید؛ آن هم بصورتی که بروز مشکلی در هر قسمت، کمترین میزان تاثیر را در سایر قسمتها داشته باشد.
فرض کنید شما تعداد زیادی سیستم و زیرسیستم مختلف را داشته باشید که هر کدام از آنها نیازمند ارتباط با برخی از قسمتهای دیگر است. در این صورت شما دو راه دارید: اول اینکه در هر قسمت سرویسهایی را برای ارتباط با سایر قسمتها پیاده سازی کنید و هر قسمت بصورت مستقیم با سایر قسمتها در ارتباط باشد.
مشخصا کنترل و مدیریت جریان اطلاعاتی در این پیاده سازی کار بسیار دشواری است. تغییر هر قسمت، تاثیر مستقیمی بر روی سایر قسمتها دارد و در صورتی که هریک از قسمتها با مشکلی روبرو شوند، سایر قسمتهای مرتبط نیز با مشکل روبرو میشوند. این مشکل زمانی بسیار نمایان میشود که در معماریهایی مانند میکروسرویس، بدلیل بالا رفتن تعداد زیرسیستمها و ارتباطات آنها، مدیریت این ارتباطات کار بسیار دشوار، پرهزینه و پیچیدهای میشود.
روش Apache Kafka برای رفع مشکل فوق به این صورت است که Kafka با بر عهده گرفتن مدیریت ارتباطات و جریان دادهای قسمتهای مختلف، به شما کمک میکند تا تیم پیاده سازی، تنها تمرکزشان را بر روی Businessی که میخواهند پیاده سازی کنند، قرار دهند. با این روش میتوانیم به راحتی سیستمهایی را پیاده سازی کنیم که از نظر ارتباطی در حالت معمول، پیچیده یا بسیار پیچیدهاند.
همانطور که میبینید دیگر نیازی نیست تا قسمتهای مختلف بصورت مستقیم با یکدیگر در ارتباط باشند؛ تمامی ارتباطات از طریق Kafka انجام میشود. تغییر یک قسمت، تاثیر زیادی بر روی سایر قسمتها ندارد. از دسترس خارج شدن یا بروز هر گونه مشکلی در یک قسمت، بر روی کل سیستم تاثیر زیادی ندارد. پیامهای مربوط به یک قسمت تا زمانی که پردازش نشدهاند از بین نمیروند. پس سیستمها میتوانند در حالت Offline نیز به کار خود ادامه دهند. شما میتوانید در این روش تمامی قسمتهای سیستم را بصورت یک Cluster پیاده سازی کنید. بنابراین احتمال از دسترس خارج شدن هر قسمت به کمترین میزان میرسد. اما حتی درصورتی که یک قسمت بصورت موقت از دسترس خارج شود، پیامهای مرتبط با آن قسمت تا زمانی که دوباره به جریان پردازش بازگردد، از بین نمیروند. پس از اضافه شدن قسمت از دسترس خارج شده، بلافاصله تمامی پیامهای مرتبط با آن قسمت برایش ارسال میشوند. برای بالا رفتن میزان کارآیی و تحمل خطا، به راحتی میتوانید خود Kafka را نیز بصورت یک Cluster پیاده سازی کنید و با بالا رفتن تعداد درخواست، در صورت نیاز میتوانید عملیات مقیاس پذیری افقی را به راحتترین روش ممکن انجام دهید.
نمایی از معماری کلی Apache Kafka:
برای شروع به آموزش Apache Kafka بهتر است ابتدا با مفاهیم و اصطلاحات آن آشنا شویم:
Producer:
ارسال کننده پیام. Application، سیستم یا زیرسیستمی که عملیات Publish پیام را برای Topic خاص از Kafka Server انجام میدهد.
Consumer:
دریافت کننده پیام. Application، سیستم یا زیرسیستمی که بر روی یک یا چند Topic خاص، Subscribe کردهاست (همچنین هر Consumer میتواند روی یک یا چند Partition از یک Topic خاص نیز Subscribe کند).
Consumer Group:
گروهی از Consumerها میباشند که با یک group.id، مشخص شدهاند. عموما این گروه شامل یک Replicate از یک Application است؛ مانند گروه ارسال کننده ایمیل (یک زیر سیستم ارسال کننده ایمیل که چندین بار در سرورهای مختلف اجرا شده است). Kafka این ضمانت را به ما میدهد که هر پیام ذخیره شده در یک Topic، برای تمامی Consumer Groupهای مرتبط ارسال شود؛ اما در هر Consumer Group، تنها یک دریافت کننده داشته باشد. یعنی هر پیام در هر Consumer Group، تنها توسط یک Consumer دریافت میشود.
Broker :
قسمتی که تمامی پیامها را از Producer دریافت میکند، سپس آنها را در Log مربوط به Topic مشخص شده ذخیره میکند و پس از آن، پیام ذخیره شده را برای تمامی Consumerهای مرتبط ارسال میکند.
Topic:
یک دسته بندی برای ذخیره کردن پیامهای Publish شده میباشد. Topicها همانند مفهوم Tableها در SQL Server میباشند. همانطور که میدانید هر Table از قبل تعریف شدهاست. یک کاربر با ارسال یک درخواست ثبت، دادهها را در آن ذخیره میکند و سپس گروهی از کاربران از دادههای ثبت شده استفاده میکنند. در مفهموم Topic نیز ابتدا ما Topic مورد نظر را با خصوصیاتی که باید داشته باشد تعریف میکنیم (البته میتوان بصورت Dynamic نیز آن را تعریف کرد؛ اما این روش توصیه نمیشود). سپس Producer پیام مربوطه را به همراه نام Topic برای Broker ارسال میکند. Broker پیام را در Partition مربوطه از Topic ذخیره میکند و سپس پیام برای تمامی Consumerهای مربوطه ارسال میشود.
Partition:
یکی از تفاوتهای بسیار مهم Kafka با سایر Message brokerها مانند RabitMQ که باعث بالارفتن کارآیی آن نیز شدهاست، قابلیت Partition در Topicها میباشد. در واقع هر Topic از یک یا چندین Partition برای ذخیره دادهها استفاده میکند. تعریف درست تعداد Partitionها در یک Topic، تاثیر مستقیمی بر درجه همزمانی و کارآیی در آن Topic و کل سیستم دارد. در Kafka تمامی پیامها به همان ترتیبی که وارد شدهاند، در Partitionهای یک Topic ذخیره میشوند و به همان ترتیب نیز برای Consumerها ارسال میشوند.
بطور مثال فرض کنید تعداد Partitionهای یک Topic با نام DepartmentMessage یک میباشد (از این Topic برای ذخیره پیامهای واحدهای مختلف یک سازمان استفاده میشود). در این صورت تمامی پیامهای دریافتی تنها در یک Partition ذخیره میشوند.
هر خانه از یک Partition، توسط یک شناسه از نوع int و با نام offset در دسترس است. تمامی پیامهای جدید ارسالی توسط Producer با offset ی بزرگتر از offset موجود در این Partition ذخیره میشوند؛ یعنی در انتهای آن قرار میگیرند. در مثال فوق در صورت دریافت پیام جدید، offset آن با عدد 10 مقداردهی میشود. همچنین عملیات خواندن نیز از کوچکترین offsetی که هنوز مقدار آن توسط Consumerها خوانده نشدهاست، انجام میشود. همانطور که مشخص است، بدلیل اینکه تعداد Partitionهای این مثال عدد یک میباشد، تمامی درخواستهای Producerها در یک Partition قرار میگیرند و تمامی Consumerها نیز از طریق یک Partition به پیامها دسترسی دارند؛ یعنی در صورت بالا بردن تعداد Producerها یا Consumerها، کارآیی بالا نمیرود. البته با اینکه کنترل مقدار اولیه offset برای شروع یک Consumer به دست خود Consumer و Zookeeper است، اما در اکثر موارد تمامی Consumerهای یک Topic باید از یک نقطه، شروع به خواندن دادهها کنند. در این حالت تا زمانیکه پیام با offset 1، توسط Consumerی خوانده نشود، هیچ Consumerی نمیتواند پیام شماره 2 را بخواند. استفاده کردن از یک Partition بیشتر زمانی کاربرد دارد که بخواهید تمامی پیامهایتان، واقعا در یک صف قرار بگیرند.
حال فرض کنید در سازمان شما سه واحد اداری، مالی و آموزش وجود دارد. در این صورت بدلیل اینکه تمامی پیامها در یک Partition ذخیره میشوند، تا زمانی که یک واحد تمامی پیامهای مرتبط با خود را از ابتدای Partition نخواندهاست، دیگر واحدها نمیتوانند به پیامهای مرتبط با خود دسترسی داشته باشند. پس در این صورت ما میتوانیم تعداد Partitionهای این Topic را عدد 3 درنظر بگیریم؛ بصورتی که پیامهای مرتبط با هر واحد در یک Partition جدا قرار بگیرد.
در این روش هر Producer زمانیکه پیامی را برای این Topic ارسال میکند، یک Key نیز برای آن مشخص میکند و این Key نشان دهنده این است که پیام جدید باید در کدام Partition ذخیره شود. یعنی بصورت همزمان میتوانید در هر سه Partition، پیامهایتان را ذخیره کنید؛ بصورتی که بطور مثال تمامی پیامهای مربوط به واحد اداری، در Partition 0 و تمامی پیامهای مربوط به واحد مالی، در Partition 1 و واحد آموزش، در Partition 2 ذخیره شوند و همچنین عملیات خواندن از این Topic نیز میتواند بصورت همزمان در واحدهای مختلف انجام شود.
باید در تعریف تعداد Partitionهای یک Topic این نکته را در نظر بگیرید که این تعداد کاملا به نیازمندی شما و کارآیی که شما مد نظر دارید، بستگی دارد. تعداد این Partitionها حتی میتواند به تعداد Userهای یک سیستم نیز تعریف شود. علاوه بر آن باید بدانید که هر Partition در هر زمان تنها توسط یک Primary Broker میتواند در دسترس سایر قسمتها قرار بگیرد و تمامی عملیات خواندن و نوشتن در Partition توسط این Kafka Server انجام میشود و در صورتیکه به هر دلیلی این سرور از دسترس خارج شود، مدیریت این Partition به سرورهای دیگر داده میشود.
Cluster:
مجموعه ای از Brokerها میباشد که بصورت یک Cluster اجرا شدهاند. این کار باعث بالا رفتن کارآیی و تحمل خطا میشود.
Primary Broker:
یک Kafka Server که مسئول خواندن و نوشتن در یک Partition است. در یک Cluster هر Partition در یک زمان تنها یک Primary Broker دارد. این Primary Broker همزمان میتواند برای Partitionهای دیگر نقش Replicas Broker را بازی کند. انتخاب یک Primary Broker برای یک Partition توسط ZooKeeper انجام میشود.
Replicas Brokers :
Kafka Serverهایی که شامل یک کپی از Partition میباشند. عملیات خواندن و نوشتن در Partition توسط Primary انجام میشود. در صورتیکه Primary از دسترس خارج شود، ZooKeeper یکی از Replicas Brokerها را بعنوان Primary در نظر میگیرد. همچنین این نکته را باید در نظر بگیرید که هر Replicate همزمان میتواند Primary پارتیشنهای دیگر باشد.
Replication Factor :
این خصوصیت احتمال از دست دادن دادههای یک Topic را به حداقل میرساند؛ به این صورت که هر پیام از یک Topic، در چندین سرور مختلف که تعداد آنها توسط این خصوصیت مشخص میشود، نگهداری میشود.
Apache ZooKeeper :
Kafka هیچ Stateی را نگه نمیدارد (اصطلاحا stateless میباشد). برای ذخیره کردن و مدیریت تمامی Stateها از جمله اینکه در حال حاضر Primary Broker برای یک Partition چه سروری است، یا اینکه پیامهای یک Partition تا کدام offset توسط Consumerها خوانده شدهاند یا اینکه کدام Consumer در حال حاضر در یک Consumer Group مسئول یک Partition میباشد، توسط Apache Zookeeper انجام میشود.
ضمانتهایی که Kafka میدهد:
- تمامی پیامهای دریافتی در یک Partition از یک Topic، به همان ترتیبی که دریافت میشوند ذخیره میشوند.
- Consumerها تمامی پیامها را در یک Partition به همان ترتیبی که ذخیره شدهاند، دریافت میکنند.
- در یک Topic با Replication Factorی با مقدار N، درجه تحمل خطا N - 1 میباشد.
تا اینجا با اهداف، مفاهیم و اصطلاحات Apache Kafka آشنا شدیم. در بخش بعد به راه اندازی قسمتهای مختلف آن در Ubuntu میپردازیم و میبینیم که به چه صورت میتوان به راحتی یک Cluster از سرورهای Kafka را ایجاد کرد.