دانشمندان دانشگاه علم و فناوری پوهانگ (POSTECH) اعلام کردهاند که این دستگاه با تشخیص حرکتهای بسیار ظریف گردن هنگام ادای خاموش واژهها، آنها را شناسایی میکند و سپس با استفاده از هوش مصنوعی، همان واژهها را با صدای خود فرد بازسازی و برای شنونده ارسال میکند.
این فناوری بر این اصل استوار است که هنگام سخن گفتن، تنها صدا تولید نمیشود، بلکه عضلات و پوست گردن نیز دچار حرکتهای بسیار ریز و قابل پیشبینی میشوند. هر واژه و هر هجا، الگوی مشخصی از جابهجایی را در ناحیه گردن ایجاد میکند و همین الگوها میتوانند برای تشخیص گفتار به کار گرفته شوند.
پژوهشگران گفتهاند که روشهای پیشین برای ثبت چنین سیگنالهایی بیشتر بر فناوریهایی مانند الکترومایوگرافی (EMG) یا الکتروانسفالوگرافی (EEG) متکی بودند. این روشها معمولاً به تجهیزات بزرگ، الکترودهای چسبی و شرایط آزمایشگاهی نیاز داشتند و برای استفاده روزمره مناسب نبودند.
تیم پژوهشی POSTECH در این طرح از یک گردنبند سیلیکونی نرم استفاده کرده است که به دوربین کوچک، حسگرهای حرکتی و سامانه هوش مصنوعی مجهز شده است. این دستگاه از حسگری بهره میبرد که میزان کشیدگی پوست و جهت حرکت آن را ثبت میکند و در نتیجه تصویر دقیقتری از عملکرد دهان و گلو به دست میدهد.
نشانگرهایی که روی سطح گردنبند چاپ شدهاند به دوربین داخلی امکان میدهند تغییر شکل دستگاه را به صورت لحظهای اندازهگیری کند. سپس یک الگوریتم ویژه، اختلافهای جزئی ناشی از بستن گردنبند را در موقعیتهای مختلف اصلاح میکند تا عملکرد دستگاه در هر بار استفاده ثابت باقی بماند.
در آزمایشهای انجامشده، این سامانه با ۲۶ واژه از الفبای آوایی ناتو مانند «آلفا»، «براوو» و «چارلی» آموزش داده شد. نتایج نشان داد که این گردنبند هوش مصنوعی توانسته است واژهها را با دقت ۸۵.۸ درصد تشخیص دهد.
پس از شناسایی واژه، نتیجه به صورت بیسیم به یک سرور ارسال میشود. در مرحله بعد، سامانه تبدیل متن به گفتار، واژه تشخیصدادهشده را با صدای شخص کاربر تولید میکند. پژوهشگران اعلام کردهاند که برای آموزش مدل صوتی شخصیسازیشده، کمتر از ۱۰ دقیقه نمونه صدا کافی است.
به گفته محققان، این دستگاه در محیطهای پر سر و صدا نیز عملکرد قابل قبولی داشته است. آزمایشها در شرایط نویز سفید حدود ۹۰ دسیبل، معادل صدای یک محیط ساختمانی شلوغ، نشان داد که این سامانه همچنان توانسته است نسبت سیگنال به نویز مطلوب را حفظ کند.
سونگ-مین پارک، سرپرست این پژوهش گفته است که این فناوری میتواند به بیماران دارای اختلال گفتاری کمک کند تا دوباره صدای خود را به دست آورند. وی تصریح کرد که این سامانه علاوه بر کاربرد پزشکی، در محیطهای صنعتی پر سر و صدا، عملیات امدادی و ارتباطات بیصدا نیز قابل استفاده خواهد بود.
با وجود این، پژوهشگران تأکید کردهاند که این فناوری هنوز محدودیتهایی دارد. در حال حاضر تنها با ۲۶ واژه از پیش تعیینشده کار میکند و برای گفتوگوی آزاد طراحی نشده است. همچنین هنگام راه رفتن یا حرکت شدید سر، دقت دستگاه کاهش مییابد.
تیم سازنده اعلام کرده است که مرحله بعدی پژوهش، افزایش تعداد کاربران آزمایشی، گسترش دامنه واژگان و بهبود عملکرد سامانه هنگام حرکت بدن خواهد بود.