تازه های فناوری

به‌روزرسانی جدید GBoard با تایپ صوتی هوش مصنوعی در حالت آفلاین

جمعه, 10 فروردين 1403

گوگل قصد دارد با به‌روزرسانی کیبورد Gboard خود، آ‌‌ن‌ را به‌صورت آفلاین درآورد. با این کار، دقت و سرعت قابلیت تایپ صوتی این اپلیکیشن بیشتر خواهد شد.

گوگل در‌حال به‌روزرسانی کیبورد جی‌بورد در گوشی‌های هوشمند پیکسل است تا قابلیت تایپ صوتی آفلاین با پشتیبانی هوش مصنوعی را به آن اضافه کند.

طبق گفته گوگل، این به‌روزرسانی به معنای آن است که کاربران قادر خواهند بود تایپ صوتی ایمیل‌ها و پیام‌های خود را بدون نگرانی از اتصال به اینترنت، با سرعت و دقت بیشتری انجام دهند.

فرانسوا بیوفیس، محقق و رهبر تیم تشخیص گفتار و ورودی موبایل گوگل می‌گوید:

تصور کنید که در حال خروج از منزل خود هستید و قصد دارید پیامی را برای شخصی بفرستید و به او بگویید «دارم دیر می‌کنم» و این درحالی است که درحال دور شدن از مودم وای‌فای خود هستید و دسترسی شما به اینترنت قطع می‌شود؛ اما با به‌روزرسانی جدید جی بورد این مشکل رفع خواهد شد.

GBoard

روش جدید تشخیص گفتار به وسیله هوش مصنوعی پیام‌ها را به‌جای کلمه به کلمه، کاراکتر به کاراکتر می‌نویسد

این مسئله ممکن است کمی پیش‌پا‌افتاده به نظر برسد اما به عقیده بیوفیس، بهبود عملکرد تشخیص گفتار به‌تدریج نحوه تعامل ما با دستگاه‌های تلفن همراه را دگرگون می‌کند. او می‌گوید اگرچه تشخیص گفتار در طی سال‌های اخیر بهبود یافته، اما هنوز یک فناوری نابالغ است. این فناوری به لحاظ محاسباتی متمرکز است و این به معنای آن است که بسیاری از سیستم‌های تشخیص گفتار باید داده‌ها را ازطریق اینترنت به مقصدی ارسال کنند تا پردازش‌های لازم روی این داده‌ها انجام شود؛ در نتیجه تایپ صوتی کند و با دقت پایین صورت می‌گیرد.

تصور کنید که به دلایلی نمی‌توانید روی دکمه‌های کیبورد خود کلیک کنید و در عین حال به اینترنت نیز دسترسی ندارید؛ در نتیجه از آن کیبورد استفاده نخواهید کرد. اما با ایجاد نسخه آفلاین، این کیبورد قطعا به انتخاب اول شما تبدیل می‌شود.

برای رفتن به این سمت، تیم گوگل برای بررسی این مشکل و همچنین ساده‌سازی سیستم هوش مصنوعی مورد استفاده این اپلیکیشن برای تشخیص گفتار، پنج سال زمان صرف کرد. برای مثال، درحالی که نسخه قدیمی تایپ صوتی اپلیکیشن جی‌بورد برای مدل‌سازی شکل امواج صوتی، تطبیق صدا با واج‌ها و سپس ترکیب این واج‌ها برای ایجاد خروجی نوشتاری، از سه مولفه جداگانه استفاده می‌کند اما نسخه به‌روزرسانی‌شده این اپلیکیشن این سه گام را در یک مرحله خلاصه می‌کند.

این نمونه جدید همچنین حجم بخشی از سیستم را که به نام «رمزگشای نمودار» شناخته می‌شود، کاهش می‌دهد؛ مولفه ای که مانند فهرست یک کتاب عمل می‌کند و شکل امواج صوتی را با کلمات نوشتاری تطبیق می‌دهد.

در نسخه قدیمی مدل تایپ صوتی جی‌بورد، حجم رمزگشای نمودار دو گیگابایت بود و این میزان برای پردازش درون دستگاه بسیار زیاد است. اما در مقابل، حجم نسخه جدید آن تنها ۸۰ گیگابایت است؛ یعنی ۲۵ برابر کوچکتر.

درحال‌حاضر، این به‌روزرسانی تنها برای زبان انگلیسی با لهجه آمریکایی و گوشی‌های پیکسل عرضه شده است اما بنابر گفته بیوفیس، در آینده به‌صورت گسترده‌تر در دسترس خواهد بود. بیوفیس می‌گوید «ما می‌توانیم این به‌روزرسانی را برای دستگاه‌های غیر از پیکسل هم عرضه کنیم. به نظر من ما قادر خواهیم بود تا این قابلیت را روی گوشی‌های بیشتر و زبان های متعدد اعمال کنیم».

0 دیدگاه

دیدگاه خود را بنویسید

Leave a comment