آشنایی با BOM !
اندازه‌ی قلم متن
تخمین مدت زمان مطالعه‌ی مطلب: یک دقیقه


سؤال: دو فایل زیرنویس فارسی داریم، هر دو هم با فرمت UTF-8 ذخیره شده‌اند. یکی در دستگاه DVD Player درست نمایش داده می‌شود و دیگری خیر. چرا؟!
هر دو فایل را اگر در یک ادیتور متنی باز کنیم تفاوتی قابل مشاهده نیست؛ اما در یک Hex Editor خیر:



در سه بایت اول فایل با هم تفاوت دارند و اصطلاحا به این سه بایت BOM یا Byte order mark گفته می‌شود. توسط آن می‌توان تشخیص داد که فایل جاری اولا آیا با فرمت یونیکد ذخیره شده است یا خیر ثانیا کدام حالت به کار گرفته شده است؛ آیا UTF-8 است یا UTF-16 یا ...؟
در حالت UTF-8 مقدار BOM مساوی با 0xEF,0xBB,0xBF بوده و البته ذکر آن اختیاری است. به نظر این دستگاه DVD Player یاد شده، به این نکته حساس است.
در دات نت جهت اطمینان از نوشته شدن BOM در فایل تولیدی، نیاز است encoding نهایی صریحا ذکر گردد. برای مثال هرچند خروجی File.WriteAllText حتی بدون ذکر encoding آن، UTF-8 است، اما BOM را به همراه ندارد (^). برای رفع این مساله باید از روش زیر استفاده کرد:

File.WriteAllText(path, data, Encoding.UTF8);