به رسمیت شناختن فیلم سریعتر برای عصر تلفن های هوشمند

شاخه ای از یادگیری ماشینی موسوم به یادگیری عمیق به رایانه ها کمک کرده است که در انجام کارهای تصویری تعریف شده مانند خواندن اسکن های پزشکی ، از انسانها پیشی بگیرند ، اما با گسترش فن آوری به تفسیر فیلم ها و رویدادهای دنیای واقعی ، مدل ها بزرگتر و از نظر محاسباتی فشرده تر می شوند.

با یک تخمین ، آموزش یک مدل تشخیص تصویری می تواند 50 برابر بیشتر از داده ها و هشت برابر قدرت پردازش بیشتری نسبت به آموزش یک مدل طبقه بندی تصویر داشته باشد. این یک مشکل است زیرا تقاضا برای قدرت پردازش برای آموزش مدل های یادگیری عمیق همچنان به صورت نمایی افزایش می یابد و نگرانی در مورد ردپای عظیم کربن AI افزایش می یابد . اجرای مدل های بزرگ تشخیص تصویری در دستگاه های تلفن همراه کم مصرف ، که بسیاری از برنامه های هوش مصنوعی در آن قرار دارند ، همچنان یک چالش محسوب می شود.

سونگ هان ، استادیار گروه مهندسی برق و علوم کامپیوتر (MIT) در MIT ، با طراحی مدلهای یادگیری عمیق کارآمد تر ، مشکل را برطرف کرده است . چوانگ گان در مقاله ای در کنفرانس بین المللی کامپیوتر ویژن ، هان ، دانشجوی فارغ التحصیل MIT و جی لین و MIT-IBM واتسون AI آزمایشگاه ، به تشریح روشی برای کوچک کردن مدل های تشخیص ویدیو برای سرعت بخشیدن به آموزش و بهبود عملکرد زمان اجرای گوشی های هوشمند و دیگر دستگاه های تلفن همراه روش آنها باعث می شود با کاهش 150 میلیون پارامتر در یک مدل پیشرفته به 25 میلیون پارامتر ، مدل را به اندازه یک ششم کوچک کنید.

هان می گوید: "هدف ما این است که هوش مصنوعی را برای هر کسی که دستگاه کم مصرف داشته باشد در دسترس قرار دهد." "برای انجام این کار ، ما باید مدل های AI کارآمد طراحی کنیم که از انرژی کمتری استفاده کنند و بتوانند به راحتی در دستگاه های لبه کار کنند ، جایی که بسیاری از هوش مصنوعی در آن حرکت می کند."

کاهش قیمت دوربین ها و نرم افزارهای ویرایش ویدیو و ظهور سیستم عاملهای جدید پخش ویدیویی ، اینترنت را با محتوای جدیدی روبرو کرده است. هر ساعت 30،000 ساعت فیلم جدید فقط در YouTube بارگذاری می شود. محققان می گویند ، ابزارهایی برای کارآمدتر کردن فهرست بندی مطالب ، به بینندگان و تبلیغ کنندگان کمک می کنند تا فیلم ها را سریعتر پیدا کنند. چنین ابزارهایی همچنین به مؤسساتی مانند بیمارستان ها و خانه های سالمندان کمک می کند تا برنامه های هوش مصنوعی را بصورت محلی و نه در ابر اجرا کنند تا داده های حساس را خصوصی و ایمن نگه دارند.

اعتبار: موسسه فناوری ماساچوست
مدلهای اساسی تصویر و تشخیص ویدیو ، شبکه های عصبی هستند که کاملاً از نحوه پردازش مغز اطلاعات استفاده می شوند. این که آیا این یک عکس دیجیتالی یا دنباله ای از تصاویر ویدئویی است ، شبکه های عصبی به دنبال الگوهای در پیکسل ها هستند و نمایشی انتزاعی به طور فزاینده از آنچه می بینند ایجاد می کنند. با نمونه های کافی ، شبکه های عصبی "یاد می گیرند" افراد ، اشیاء و نحوه ارتباط آنها را بشناسند.

مدلهای برتر تشخیص ویدیو در حال حاضر از پیچیدگی های سه بعدی برای رمزگذاری گذر زمان در یک توالی از تصاویر استفاده می کنند ، که باعث ایجاد مدل های بزرگتر و محاسباتی بیشتر می شود. برای کاهش محاسبات درگیر شده ، هان و همکارانش عملیاتی را طراحی کردند که آنها را یک ماژول تغییر موقتی می نامند که نقشه ویژگی های یک قاب ویدیویی انتخاب شده را به قاب های همسایه خود تغییر می دهد. با آمیختن بازنمایی های مکانی گذشته ، حال و آینده ، این مدل احساس گذر زمان می کند بدون اینکه صریحاً آن را بازنمایی کند.

نتیجه: مدلی که در تشخیص عملکردها در مجموعه داده ویدیویی Something-Something ، از همسالان خود فراتر رفته و در رده بندی های عمومی اخیر رتبه اول در نسخه 1 و نسخه 2 را کسب کرده است. نسخه آنلاین ماژول تغییر نیز به اندازه کافی زیرکانه است که خواندن حرکات در زمان واقعی است. در یک نسخه آزمایشی اخیر ، لین ، دکتری دانشجو در EECS ، نشان داد که چگونه یک کامپیوتر تک بورد به دوربین فیلمبرداری تقلب می کند ، می تواند بلافاصله حرکات دست را با مقدار انرژی برای قدرت یک چراغ دوچرخه طبقه بندی کند.

به طور معمول برای آموزش چنین مدل قدرتمندی در یک دستگاه با تنها یک پردازنده گرافیکی حدود دو روز زمان لازم است. اما محققان موفق به اتخاذ زمان در ابر ابر رایانه وزارت انرژی ایالات متحده ، در حال حاضر سریعترین سرعت در زمین هستند. محققان با قدرت فوق العاده Summit ، نشان دادند که با 1.536 پردازنده گرافیکی ، این مدل می تواند تنها در 14 دقیقه ، نزدیک به حد نظری آن ، آموزش یابد. آنها می گویند که این سه برابر سریعتر از مدل های پیشرفته 3 بعدی است.

داریو گیل ، مدیر تحقیقات آی بی ام ، در سخنان آغازین اخیر خود در هفته پژوهش هوش مصنوعی به میزبانی آزمایشگاه هوش مصنوعی MIT-IBM Watson ، این کار را در سخنان آغازین اخیر خود برجسته کرد.

وی بعدا گفت: "محاسبات مورد نیاز برای مشاغل بزرگ آموزش هوش مصنوعی هر 3.5 ماه دو برابر می شود." "توانایی ما برای ادامه دادن به محدودیت های فناوری به استراتژی هایی مانند این بستگی دارد که الگوریتم های کارآمد با ماشین های قدرتمند مطابقت دارند."

از کارشناسان تحرک ما در Android OnAir مطلع شوید

به رسمیت شناختن فیلم سریعتر برای عصر تلفن های هوشمند

، ,های ,یک ,مدل ,ها ,هوش ,هوش مصنوعی ,مدل های ,می شود ,می کند ,کرده است

مشخصات

جهت مشاهده منبع اصلی و ادامه این مطلب این مطلب کلیک کنید
کلمات کلیدی منبع :
در صورتی که این صفحه دارای محتوای مجرمانه است یا درخواست حذف آن را دارید لطفا گزارش دهید.

به رسمیت شناختن فیلم سریعتر برای عصر تلفن های هوشمند

مشخصات

آخرین مطالب این وبلاگ

آخرین ارسال ها

آخرین وبلاگ ها

آخرین جستجو ها

درباره این سایت