سبد خرید شما

لیست استعلام

لیست استعلام

محصولی در لیست وجود ندارد.

راه های ارتباطی

پروژه یوفونیا گوگل

پروژه یوفونیا گوگل

پروژه یوفونیا گوگل ؛

تشخیص گفتار مبتلایان به اختلالات تکلم به کمک هوش مصنوعی

پروژه‌‌ی یوفونیا نمونه‌‌ای از تلاش‌های گوگل در به‌کارگیری هوش مصنوعی و فناوری تشخیص گفتار برای فراهم‌آوردن امکان استفاده‌ی افراد مبتلا به اختلالات گفتاری از تکنولوژی‌های روز دنیا است. گوگل که مدتی است تلاش‌هایش برای فراهم‌کردن امکان استفاده‌ی افراد معلول از تکنولوژی‌های روز دنیا را آغاز‌ کرده‌، اخیرا از پروژه‌ای به‌نام یوفونیا (Euphonia) رونمایی کرده است. یوفونیا برگرفته از نام ماشین سخن‌گویی است که اواخر قرن هجدهم و اوایل قرن نوزدهم، جوزف یوفونیا، مخترع آلمانی، ابداع کرد و ساخت.

درواقع، این پروژه تلاشی برای ارتقای قابلیت‌های فناوری تشخیص گفتار به‌منظور فراهم‌آوردن امکان درک صحبت‌های افراد مبتلا به مشکلات تکلم و اختلالات گفتاری است؛ چرا‌که سیستم‌های پردازش گفتار طبیعی موجود قابلیت درک صحبت‌های افراد مبتلا به بیماری‌های پیش‌رونده‌ای همچون ALS را ندارد. بیماری اسکلروز جانبی آمیوتروفیک (Amyotrophic Lateral Sclerosis) که استیون هاوکینگ نیز به آن مبتلا بود، نوعی بیماری نورون‌های حرکتی است که موجب تخریب پیش‌رونده و ترمیم‌ناپذیر دستگاه عصبی می‌گردد. در این بیماری، دستگاه عصبی مرکزی و ماهیچه‌ها به‌ویژه ماهیچه‌های دست، پا، ساعد، سر و گردن به‌شدت صدمه می‌بینند و فرد مبتلا معمولا دچار ناتوانی‌های حرکتی می‌گردد و پس از سه تا پنج سال جان خود را از دست می‌دهد.

محصول تولید‌ی در این پروژه، گفتار افراد مبتلا به اختلالات تکلم را مستقیما و بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل می‌کند. ازآنجاکه مبنای یادگیری در تکنولوژی ASR (تشخیص گفتار خودکار یا Automatic Speech Recognition)، صحبت‌کردن به‌شیوه‌ی معمول و متداول است، سیستم‌هایی که از این تکنولوژی بهره‌ می‌گیرند، برای افرادی که با لهجه‌ی خاصی صحبت‌ می‌کنند یا مبتلا به اختلالات تکلم هستند، چندان کاربردی نیست و حتی درباره‌ی مبتلایان به اختلالات گفتاریِ نه‌چندان حاد، همچون ALS نیز، نرخ خطای کلمه‌ی درخورتوجهی را شاهد هستیم. نرخ خطای کلمه (WER) معمول‌ترین شاخص برای مقایسه‌ی عملکرد سیستم‌های ASR است و از تقسیم مجموع تعداد کلمات اشتباه تشخیص‌ داده‌ و کلمات نگفته‌ی اضافه‌ و کلمات گفته‌ تشخیص‌ داده‌ نشده، بر تعداد کل کلمات گفته‌ به‌دست می‌آید.

شاید ناتوانی سیستم‌های تشخیص چهره در شناسایی افراد رنگین‌پوست در مقایسه با ساخت سیستم تشخیص گفتاری که برای افراد مبتلا به اختلالات گفتاری کاربردی نیست، خطای چندان چشمگیری به‌شمار نیاید؛ اما در هر دو مورد، بخشی از مشکل سیستم دراختیار نداشتن داده‌های مربوط به گروه‌های خاصی از افراد است. این امر برای محققان گوگل به‌معنای جمع‌آوری ساعت‌ها داده‌ی صوتی از افراد مبتلا به ALS است و ازآنجاکه نوع و میزان پیشرفت مشکلات گفتاری در این بیماران از فردی به فرد دیگر متفاوت است، طبیعی است انتظار داشته‌ باشیم فرآیند تطبیق این تکنولوژی با اثرهای ناشی از یک بیماری، کاملا از روند تطبیق آن با مثلا لهجه‌ای غیرمعمول متفاوت باشد.

پژوهشگران پروژه‌ی یوفونیا ضمن ارزیابی‌های خود دریافته‌اند وقتی این مدل نمی‌تواند واجِ ادا گردیده را به‌درستی تشخیص دهد، دو نوع خطا ممکن است رخ‌ دهد: ۱.سیستم واج ادا گردیده و به‌تبع آن، کلمه را به‌اشتباه تشخیص‌ داده‌؛ ۲.سیستم توانایی تشخیص واج ادا گردیده را نداشته‌ و به‌ناچار آن‌ را حدس‌ زده‌ ست. در این‌ صورت، نزدیکی آوایی یک یا چندین واج‌ در یک کلمه، ممکن است به خطا در جایگزینی واج‌ها و به‌تبع آن، اشتباه در تشخیص کلمه منجر گردد.

حل مشکل دوم با توجه به قابلیت‌های هوش‌ مصنوعی، چندان دشوار نیست. اگر سیستم در جمله‌ی «من روزی یک سیب می‌خورم»، نتواند «س» را در کلمه «سیب» تشخیص‌ دهد، برای مدلی که از هوش ‌مصنوعی بهر‌ه‌ می‌گیرد، احتمال آنکه گوینده جمله‌ی «من روزی یک شیب می‌خورم» را بیان کند، با احتمال بیان جمله‌ی مذکور به‌صورت صحیح یکسان نیست. سیستم با بهره‌گیری از هوش‌ مصنوعی و آنچه درباره‌ی الگوهای کلامی زبان انسان می‌داند و با درنظرداشتن موضوع صحبت گوینده و زمینه‌های مرتبط با آن، می‌تواند جمله‌ی صحیح را حدس‌ بزند.

 

برای امتیاز به این نوشته کلیک کنید!
[کل: 0 میانگین: 0]

فهرست مطالب