The full source tree with all the code, test code and everything that together constitutes the “Windows source code” is more than a half terabyte in size, in more than 4 million files. You can spend a year (seriously) just drilling down the source tree, more than a half million folders containing the code for every component making up the OS workstation and server products and all their editions, tools, and associated developement kits, and see what’s in there, read the file names and try to figure out what does what. It would take a life (or two) to read it all.
از ویندوز ویستا به بعد، ویندوز به صورت توکار دارای یک موتور تشخیص صدا شده است که در این مسیر قابل مشاهده میباشد:
Control Panel\Ease of Access\Speech Recognition
این سرویس از طریق اسمبلی استاندارد System.Speech در دات نت فریم ورک قابل استفاده است که اکنون با برنامهی Subtitle tools یکپارچه شده است.
یکی از خصوصیات مفید این موتور تشخیص صدا، امکان دریافت فایلهای صوتی نیز میباشد. فایل صوتی دریافتی باید مطابق یکی از فرمتهای پشتیبانی شده توسط آن، تهیه شود؛ که این مورد را ذیل قسمت Supported audio formats شکل فوق میتوانید مشاهده کنید.
برای نمونه توسط برنامه AoA Audio Extractor Basic، میتوان این تبدیلات را انجام داد و یکی از تنظیمات قابل قبول توسط موتور Speech Recognition ویندوز 7 را در تصویر ذیل میتوانید مشاهده کنید: (و در غیراینصورت هیچ خروجی را نخواهید گرفت؛ خیلی مهم!)
پس از انتخاب و گشودن فایل صوتی در برنامه Subtitle tools (کلیک بر روی دکمه Open WAV در اینجا) و سپس کلیک بر روی دکمهی Recognize یا Start ، کار موتور Speech Recognition ویندوز شروع شده و برنامه هم در اینجا از فرصت استفاده کرده و دریافتی نهایی را تبدیل به رکوردهای فایل زیرنویس میکند که نمونهای از آنرا در شکل فوق میتوانید ملاحظه کنید.
نکاتی در مورد استفاده بهینه از موتور تشخیص صدای ویندوز:
الف) برای آزمایش برنامه، یک فایل voice را از اینجا دریافت کنید. این فایل voice از همان سری مترو PluralSight تهیه شده است.
ابتدا موتور تشخیص صدای انتخابی را بر روی حالت US قرار داده و تست کنید. در ادامه یکبار هم برروی حالت UK قرار دهید و کار تشخیص صدا را آغاز نمائید.
نتایج کاملا متفاوت خواهند بود و با توجه به لهجه انگلیسی گوینده، تشخیصهای حالت UK، به واقعیت نزدیکتر هستند. این مورد را در گزینهی Average confidence هم میتوانید مشاهده نمائید. مثلا در اینجا موتور تشخیص صدا در کل به 60 درصد خروجی تولیدیاش اطمینان دارد و مابقی ... آنچنان اعتباری ندارند.
مثلا متن صحیح سطر چهارم در تصویر فوق باید «when they are not in the foreground» باشد!
ب) تنظیمات Timeouts
اگر به فایل voice فوق دقت کنید، گوینده یک نفس از ابتدا تا انتها صحبت میکند. اینجا است که به کمک مقادیر Silence timeout ، میتوان تعداد رکوردها را بر اساس فواصل تنفس کوتاهتری، بیشتر کرد. مثلا با اعداد پیش فرض سیستم، با فایل صوتی فوق به 5 خروجی خواهید رسید؛ اما با توجه به تنظیماتی که در تصویر مشاهده میکنید، به 8 خروجی متعادلتر میرسیم.
مزایا:
- کار زمانبندی زیر نویس خودکار میشود.
- تا حدود 60 درصد، خروجی متنی مطمئنی را میتوان شاهد بود.
در مورد ویندوز XP :
ویندوز XP به صورت پیش فرض دارای موتور Speech Recognition نیست. دو راه برای نصب آن در این سیستم وجود دارد:
الف) استفاده از بسته نرم افزاری آفیس XP
به کنترل پنل مراجعه کرده، گزینهی Add/remove programs را انتخاب نمائید. در اینجا Microsoft Office XP را انتخاب و بر روی دکمه Change کلیک کنید. نیاز است تا یکی از ویژگیهای نصب نشده آنرا نصب کنیم. به همین جهت در صفحه ظاهر شده، Add or Remove Features را انتخاب و در ادامه در قسمت Features to install ، گزینهی Office Shared Features را انتخاب کنید. ذیل مدخل Alternative User Input، امکان انتخاب و نصب Speech مهیا است.
ب) استفاده از Microsoft Speech SDK Setup 5.1
بر روی ویندوز 7، نگارش 8 این برنامه نصب است؛ اما برای ویندوز XP تا نگارش 5.1 بیشتر ارائه نشده است. فایلهای آنرا از اینجا میتوانید دریافت کنید. نصب آن هم در اینجا توضیح داده شده.
من در کل ویندوز XP را برای اینکار توصیه نمیکنم چون هم موتور تشخیص صدای آن قدیمی است و هم حالت Asynchronous آن درست کار نمیکند. برای مثال این یک خروجی تهیه شده از همان فایل voice فوق، توسط موتور تشخیص صدای مخصوص ویندوز XP است که بیشباهت به طنز نیست!
- آموزش MVC - قسمت هشتم - نمایش Autocomplete DropDownList در MVC | www.30sharp.com
- دانلود رایگان کتاب ۳۷۰ص وبلاگ نویسی شیرین با وردپرس | کسب و کار اینترنتی | www.ebusinessfa.com
- مقدمه ای بر RavenDB – قسمت اول | www.dotnetdev.info
- مقدمه ای بر RavenDB – قسمت دوم | www.dotnetdev.info
- Droid Arabic Kufi & Naskh for Google™ | 29letters.wordpress.com
- Microsoft Download Manager | www.microsoft.com
- Modern C++(0x) Programming with Visual Studio | www.microsoft.com
- System.Net.WebSockets در دات نت 4.5 | www.paulbatum.com
- Updated Release: Windows Phone Toolkit | silverlight.codeplex.com
- WebSockets در ویندوز 8 | www.paulbatum.com
- ابزارهای مدیریت پروژه رایگان | 3.7designs.co
- ایجاد چارت در ASP.NET MVC3 | mojtabasahraei.blogfa.com
- پایان توسعه Flash Player جهت دستگاههای موبایل | blogs.adobe.com
- پیاده سازی یک بافر حلقوی Generic در دات نت | www.blackwasp.co.uk
- زبان معاصر فارسی از دیدگاه یک غیرایرانی | 29letters.wordpress.com
اشتراکها
ویدیوهای Microsoft Connect(); 2018
اشتراکها
بررسی ویژگیهای جدید SQL Server 2017
اشتراکها