اندازهی قلم متن
تخمین مدت زمان مطالعهی مطلب:
یک دقیقه
سؤال: دو فایل زیرنویس فارسی داریم، هر دو هم با فرمت UTF-8 ذخیره شدهاند. یکی در دستگاه DVD Player درست نمایش داده میشود و دیگری خیر. چرا؟!
هر دو فایل را اگر در یک ادیتور متنی باز کنیم تفاوتی قابل مشاهده نیست؛ اما در یک Hex Editor خیر:
در سه بایت اول فایل با هم تفاوت دارند و اصطلاحا به این سه بایت BOM یا Byte order mark گفته میشود. توسط آن میتوان تشخیص داد که فایل جاری اولا آیا با فرمت یونیکد ذخیره شده است یا خیر ثانیا کدام حالت به کار گرفته شده است؛ آیا UTF-8 است یا UTF-16 یا ...؟
در حالت UTF-8 مقدار BOM مساوی با 0xEF,0xBB,0xBF بوده و البته ذکر آن اختیاری است. به نظر این دستگاه DVD Player یاد شده، به این نکته حساس است.
در دات نت جهت اطمینان از نوشته شدن BOM در فایل تولیدی، نیاز است encoding نهایی صریحا ذکر گردد. برای مثال هرچند خروجی File.WriteAllText حتی بدون ذکر encoding آن، UTF-8 است، اما BOM را به همراه ندارد (^). برای رفع این مساله باید از روش زیر استفاده کرد:
File.WriteAllText(path, data, Encoding.UTF8);