مقدمه و پیشینه

ساخت وبلاگ

هدف از پروژه ما بررسی معماری هایی است که آگاهی زمانی در شبکه های عصبی حلقوی را شامل می شوند ، به طوری که این مدل می تواند اطلاعات زمانی را در کنار اطلاعات مکانی در کار طبقه بندی قاب ویدیویی ما ضبط کند.

شبکه های عصبی Convolutional (CNN) خود را به عنوان بازیگر اصلی در کارهای بینایی رایانه مانند طبقه بندی تصویر ، تقسیم تصویر و تشخیص شیء ایجاد کرده اند. موفقیت این مدل ها به بسیاری از لایه های حلقوی موجود در شبکه نسبت داده می شود ، که برای استخراج ویژگی ها در تمام سطوح آموزش داده می شوند ، از ویژگی های سطح پایین مانند لبه ها و بافت گرفته تا ویژگی های سطح بالا مانند اندام و چهره. و در واقع ، ما شاهد بودیم که شبکه های عصبی بسیار عمیقی به عملکرد هنری در کارهای طبقه بندی تصویر با حداکثر هزاران کلاس دست یابیم.

با این حال ، هنگامی که برای طبقه بندی فریم های داده های ویدئویی (به عنوان مثال داده های تصویر سری زمانی) اعمال می شود ، CNN ها قادر به در نظر گرفتن اطلاعات زمانی بسیار مهم که از قاب به قاب رمزگذاری می شود ، نیستند. به طور کلی ، فریم های یک فیلم مستقل نیستند و به طور یکسان توزیع می شوند ، اما در عوض به دلیل الگوهای فضایی-زمانی که در فیلم ها وجود دارند ، به موقع بسیار همبسته هستند. برای به دست آوردن نتایج بهینه ، مهم است که این الگوهای فضایی-دمای را در نظر بگیرید.

اما منظور ما دقیقاً از الگوهای فضایی-زمانی چیست؟وقتی می گوییم الگوهای فضایی-زمانی ، ما به الگوهای موجود همزمان در ابعاد مکانی و زمانی اشاره می کنیم. نکته اصلی که باید به آن توجه داشته باشید این است که به سادگی به ترکیبی از دو الگوی که به طور جداگانه در ابعاد مکانی و زمانی وجود دارند ، اشاره نمی کند ، بلکه یک الگوی مکانی است که در بعد زمانی تکامل می یابد.

به عنوان یک نمونه مصور ، نمودار را در شکل 1 در نظر بگیرید ، فریم های مجاور را در یک فیلم به تصویر می کشد. به صورت جداگانه ، این فریم ها الگوهای مکانی مانند لبه ها یا بافت ها را نشان می دهند. اما هنگامی که فریم های مجاور در رابطه با هم در نظر گرفته می شوند ، ما اطلاعات حرکتی را بدست می آوریم ، مانند اینکه چگونه یک لبه خاص می چرخد ، ترجمه می کند ، اندازه را تغییر می دهد یا در غیر این صورت از یک قاب به دیگری تکامل می یابد. این همان چیزی است که ما از یک الگوی فضایی و زمانی استفاده می کنیم.

برای مثال قابل اعتماد تر ، مطالعه ای را توسط Tavakolian و همکاران در نظر بگیرید ، جایی که هدف آن تخمین شدت درد یک شخص است ، با توجه به ویدئویی از بیان صورت خود. شکل 2 یک قاب خاص از چنین ویدئویی را نشان می دهد.

شکل 2 - یک قاب ویدیویی از بیان صورت یک موضوع در یک مطالعه تخمین درد توسط Tavakolian و همکاران.

مدلی که به طور ساده و ساده با هر قاب فیلم به صورت جداگانه رفتار می کند ، بدون در نظر گرفتن الگوهای زمانی ، فقط قادر به استفاده از ویژگی های استاتیک از بیان فوری سوژه خواهد بود. در مقابل ، مدلی که قادر به استخراج الگوهای فضایی-زمانی باشد ، می تواند از پویایی حرکات صورت استفاده کند ، مانند اینکه فک او چقدر سریع می رود ، یا انقباضات عضلانی چقدر جدی است و غیره. قادر به استفاده از این اطلاعات برای تخمین دقیق تر شدت درد سوژه باشید. واضح است که با قادر به استخراج الگوهای فضایی-زمانی ، یک مدل می تواند از این الگوهای به عنوان ویژگی ها سوء استفاده کند ، بنابراین می تواند بهتر از مدلی باشد که فقط به خودی خود الگوهای مکانی یا زمانی را استخراج می کند.

در این مطالعه ، ما روش هایی را برای ترکیب آگاهی زمانی در شبکه های عصبی حلقوی بررسی می کنیم ، به طوری که این مدل ها می توانند از الگوهای مکانی و زمانی استفاده کنند تا با دقت بیشتری طبقه بندی قاب ویدیویی را انجام دهند. ما دو رویکرد متمایز در این مورد را کشف می کنیم و هدف آن نشان دادن عملکرد برتر آنها در مقایسه با یک CNN استاندارد است که به سادگی با هر قاب ویدیویی به صورت جداگانه رفتار می کند.

شبکه های عصبی سه بعدی

اولین رویکردی که ما در نظر می گیریم استفاده از پیچش های سه بعدی است. با تعمیم هسته ما به 3 بعد ، این مدل قادر به استخراج الگوهای در دو بعد مکانی و بعد زمانی به طور همزمان خواهد بود.

شکل 3-یک همبستگی سه بعدی ، که در آن هسته 3D می تواند الگوهای مکانی-زمانی را بر روی چندین فریم مجاور از فیلم ورودی (و همچنین از نقشه های ویژگی بعدی) استخراج کند. منبع تصویر: https://doi.org/10. 3390/rs9111111111111139

با انجام تکامل در طول ابعاد زمانی ، هسته ها قادر به ضبط چگونگی تکامل الگوهای مکانی در طول زمان بر روی چندین فریم مجاور هستند.

اولین اجرای این روش برای کار شناخت عمل توسط جی و همکاران بود ، جایی که هر ویدیو به یک کلاس خاص طبقه بندی می شد. برای تعمیم این روش به وظیفه ما برای طبقه بندی هر فریم از یک فیلم ، ما عمل جمع آوری را در طول زمان انجام نمی دهیم ، به طوری که خروجی شبکه برای هر قاب ویدیوی ورودی دارای یک برچسب جداگانه است. ما جزئیات اجرای بیشتری را در بخش Model Architecture ارائه خواهیم داد.

LSTM های حلقوی

رویکرد دوم که ما کشف می کنیم استفاده از LSTM های حلقوی است که برای اولین بار توسط شی و همکاران پیشنهاد شده است. برای درک بهتر LSTM های Convolutional ، ابتدا نحوه عملکرد وانیل LSTM را مرور می کنیم.

به یاد بیاورید که یک واحد LSTM وانیل از یک سلول حافظه و همچنین سه دروازه تشکیل شده است - یعنی یک دروازه ورودی ، یک دروازه فراموش شده و یک دروازه خروجی. به طور خاص ، دروازه ورودی چقدر از محتوای سلول نامزد ما را برای به روزرسانی خود کنترل می کند ، و Great Gate چقدر از محتوای سلول قبلی را برای حفظ کنترل می کند. سپس با سلول حافظه به روز شده ما ، دروازه خروجی تعیین می کند که حالت پنهان جدید چیست. این به طور خلاصه در معادلات زیر بیان شده است:

در جایی که من ، F و O به ترتیب ورودی ، فراموش و خروجی دروازه را نشان می دهند ، C سلول حافظه را نشان می دهد ، و H حاکی از حالت پنهان است.~ عملگر نشان دهنده ضرب عناصر عاقلانه است. به عبارت ساده تر ، این سه دروازه در هر مرحله زمانی ، جریان اطلاعات را به داخل و خارج از سلول حافظه کنترل می کنند و به آن می توانند اطلاعات قبلی را حفظ کنند و همچنین خود را با اطلاعات جدید به روز کنند. از طریق این مکانیسم است که LSTM ها قادر به ضبط الگوهای زمانی کوتاه و بلند مدت در داده ها هستند.

LSTM های Convolutional LSTM های وانیل را با جایگزینی تحولات وابسته با عملیات حلقوی گسترش می دهند. بنابراین مجموعه معادلات فوق با معادلات زیر جایگزین می شود:

معادلات اصلی حاکم بر LSTM های حلقوی. تحولات Affine در LSTM های وانیل با عملیات Convolution جایگزین می شود.

که در آن نماد * عملگر Convolution را نشان می دهد ، و inare باز هم ضرب و شتم عناصر را نشان می دهد. با معرفی ساختار حلقوی به LSTM ها ، خصوصیات مکرر و حلقوی می توانند به طور هم زمان کار کنند تا همبستگی های فضایی و زمانی پیچیده موجود در فیلم ها را بیاموزند.

مجموعه داده تعامل اجتماعی موش صحرایی

وظیفه خاص یادگیری ماشین که ما برای این پروژه به آن توجه خواهیم کرد ، یک مشکل طبقه بندی در فریم های فردی داده های ویدیویی است. مجموعه داده هایی که با آن کار خواهیم کرد ، مجموعه داده تعامل اجتماعی موش ، 135 دقیقه فیلم از دو موش را که در یک فضای محدود تعامل دارند ، ضبط می کند. موشها در قفس خالی 90 سانتی متر 90 سانتی متر با دوربین بسته شده در بالا که مستقیماً به پایین نشان داده شده است ، قرار می گیرند. یک قاب مثال را می توان در شکل 4 مشاهده کرد که نشان می دهد موشهایی که درگیر رفتار انفرادی هستند. وضوح فیلم 576 5 576 با نرخ فریم 25 فریم در ثانیه است. این قاب ها در ابتدا به یکی از ده کلاس مختلف که توصیف رفتار این دو موش است ، برچسب گذاری می شوند اما برای این مشکل خاص ما کلاس های مشابه را ترکیب می کنیم تا یک مشکل باینری را با یک کلاس برای "رفتار انفرادی" و دیگری برای "رفتار متقابل" ایجاد کنیم.

چرا الگوهای فضایی-زمانی برای این مشکل مهم هستند؟

حل و فصل سنتی تر 2D قادر به پیش بینی در مورد این مسئله طبقه بندی باینری با قاب فردی خواهد بود اما برخی از قدرت پیش بینی کننده بالقوه مهم را بدون استفاده می کند. اگر ما فقط در هر قاب جداگانه Convolution را انجام دهیم و پیش بینی ها را در هر زمان پیش بینی کنیم ، فرض ضمنی را که هر قاب از قاب قبل از آن مستقل است ، در مدل خود قرار داده ایم. این واضح است که چنین نیست. از آنجا که موشها یا برای یک دوره پایدار به رفتار انفرادی یا تعامل می پردازند ، کلاس هر تصویر به قاب هایی که قبل از آن آمده است بسیار وابسته است. الگوهای احتمالاً در بعد زمان وجود دارد که هم در طول چندین فریم و هم در مقیاس زمانی بسیار بزرگتر بازی می کنند. با استفاده از لایه های حلقوی که می توانند این الگوهای فضایی-زمانی را ضبط کنند ، امیدواریم که از این الگوهای برای بهبود دقت و کارآیی مدل خود استفاده کنیم.

مزایا و معایب

با توجه به این نکته مهم است که برخی از جوانب مثبت و منفی هر نوع حلقوی را وزن کنید و تصمیم گیری کنید که در مورد بهترین برنامه برای یک برنامه خاص است. شبکه های Convolutional 2D می توانند از این واقعیت استفاده کنند که آنها فقط با استفاده از داده های هر قاب جداگانه پیش بینی می کنند و این بدان معنی است که می توانند استنتاج را به صورت جریان انجام دهند. این بدان معناست که اگر یک مدل به اندازه کافی بهینه شود ، قادر به استنباط در زمان واقعی در داده های ویدیویی است. پیچش های سه بعدی این مزیت را ندارند. برای اینکه یک مدل مبتنی بر پیچیدگی های سه بعدی از الگوهای زمانی استفاده کند ، دسته ای که حاوی بسیاری از فریم ها است باید در هنگام استنتاج به شبکه منتقل شود. نیاز به پیچیدگی های سه بعدی برای جمع آوری بسیاری از فریم ها قبل از تغذیه در شبکه ، مانع از انجام مدل پیش بینی ها در زمان واقعی می شود. LSTM Convolutional از طرف دیگر قادر به استنباط در زمان واقعی است زیرا اطلاعات مربوط به فریم های قبلی در حالت نهان ذخیره می شود که به مدل امکان می دهد قاب استنتاج را بر اساس قاب انجام دهد.

تجزیه و تحلیل داده های اکتشافی

در طول تجزیه و تحلیل داده های اکتشافی ، ما سعی می کنیم تا مشخص کنیم که آیا الگویی در توزیع زمان صرف شده در تعامل در مقابل رفتار انفرادی وجود دارد یا خیر. شکل 5 برآورد چگالی هسته از لگاریتم طبیعی طول زیر توالی را برای هر دو زمان صرف شده در رفتار انفرادی و تعامل نشان می دهد. علاوه بر این در طرح ، تقریب توزیع عادی محاسبه شده با استفاده از لحظات اول و دوم طول زیرگذر را داریم. با توجه به توافق بین برآورد چگالی هسته و تقریب طبیعی ، عادلانه است که بگوییم طول زیر توالی برای هر دو رفتار انفرادی و تعامل را می توان به عنوان نمونه ای از توزیع عادی log مدل کرد. ما امیدواریم که این مدل بتواند از این الگوهای برای افزایش قدرت پیش بینی استفاده کند.

علاوه بر این ، شایان ذکر است که همانطور که در شکل 6 مشاهده می شود ، داده های آموزش شامل 54. 7 ٪ فریم های انفرادی و 45. 3 ٪ فریم های متقابل در حالی که داده های اعتبار سنجی حاوی 63. 5 ٪ قاب انفرادی و 36. 5 ٪ قاب های متقابل است.

منطقه دیگری که ما می خواستیم بررسی کنیم این بود که آیا الگوهای در طول زیر توالی وجود دارد که می توان برای پیش بینی طول زیر دنباله بعدی استفاده کرد. اگر چنین الگویی وجود داشته باشد ، می توان از این پیش بینی کرد که چه زمانی انتقال بین توالی های زیر رخ می دهد. ما می توانیم ببینیم که شکل 7 دو توزیع عادی چند متغیره روکش شده با کواریانس صفر را تقریبی می کند. این نشان می دهد که بین طول پی در پی متوالی هیچ ارتباط قابل توجهی وجود ندارد. با این حال ، این احتمال وجود ندارد که الگوهای طولانی مدت در داده ها پخش شوند.

پیش پردازش

مرحله آخر قبل از اجرای مدل های ما از پیش پردازش بود. در سمت چپ شکل 8 می توان دریافت که لبه های بیرونی فیلم اصلی فقط دیواره محفظه را نشان می دهد که برای ساختن یک مدل پیش بینی مفید نخواهد بود. به این ترتیب ، برداشت برای حذف 20 ٪ از تصویر در طول هر بعد انجام شد. تصویر حاصل 460 x 460 است. در از بین بردن قسمت های بی ربط تصویر امیدواریم که تعداد پارامترهای موجود در مدل را کاهش دهیم که سرعت آموزش و استنباط را افزایش می دهد. علاوه بر این ، برای کاهش بیشتر نیازهای حافظه ، تصاویر با استفاده از درون یابی دو خطی به 128 x 128 تغییر شکل داده شدند. ویدیوی اصلی در قالب سه کانال RGB آمده است که با توجه به تصاویر سیاه و سفید غیر ضروری بود. به منظور بهینه سازی بیشتر آموزش و زمان استنباط ، ما فقط یک کانال را حفظ کردیم زیرا 2 مورد دیگر زائد بودند.

معماری مدل

اکنون مدل های مورد بحث در آخرین پست وبلاگ را دوباره مرور خواهیم کرد و سپس نسخه های LSTM Convolutional را معرفی می کنیم.

همه مدل ها بر اساس نسخه های اصلاح شده معماری VGG است که ما آن را MVGG می نامیم. ما از این شبکه های عصبی 2D استاندارد به عنوان نقطه شروع استفاده خواهیم کرد و سپس آنها را برای استفاده از اطلاعات زمانی ساخته خواهیم کرد.

شبکه VGG اصلاح شده (MVGG) همان ساختار بلوک کلی شبکه اصلی VGG را به اشتراک می گذارد ، به این ترتیب ما 5 بلوک از لایه های حلقوی جدا شده توسط لایه های حداکثر گلوله ای برای کاهش اندازه نقشه ویژگی پس از هر بلوک توسط یک عامل دو نفر داریم. در هر دو بعد تصویر. هر بلوک از تعدادی از لایه های حلقوی 2D تشکیل شده است ، اما برخلاف شبکه اصلی VGG ، ما از لایه های ترکیبی و دسته جمعی پس از هر لایه حلقوی استفاده می کنیم. هر لایه Convolution از هسته ای از اندازه 3x3 با بالشتک "همان" استفاده می کند تا ارتفاع و عرض تصویر حفظ شود و دارای یک عملکرد فعال سازی RELU باشد. ما از میزان ترک تحصیل 0. 05 استفاده می کنیم و لایه های حداکثر استخر از اندازه استخر 2x2 و قدم 2x2 مانند معماری اصلی VGG استفاده می کنیم. این گزینه های لایه جمع آوری اطمینان حاصل می کنند که اندازه تصویر توسط یک عامل دو در هر جهت بعد از هر بلوک کاهش می یابد. سرانجام ، پس از آخرین لایه حداکثر استخر ، ما نورونها را صاف می کنیم و از یک لایه کاملاً متصل با فعال سازی SoftMax استفاده می کنیم تا یک خروجی پیش بینی نورون را از آن استفاده کنیم.

دو بلوک اول از هر شبکه MVGG دارای دو تکرار از 2D Concolutions به علاوه لایه های ترکیبی و جمع آوری دسته ای است و سه بلوک آخر دارای تعداد متغیر N از این لایه ها هستند. ما شبکه های MVGG را با N = 2 ، 3 ، 4 ، 5 در نظر می گیریم که به ترتیب به عنوان MVGG11 ، MVGG14 ، MVGG17 و MVGG20 مشخص شده اند ، زیرا از 11 ، 14 ، 17 و 20 تعداد لایه های قابل آموزش در هر یک از این شبکه ها را نشان می دهد.

شبکه های عصبی سه بعدی ما مبتنی بر شبکه های MVGG ما هستند ، به جز لایه های 2D Convolutional و با لایه های سه بعدی Convolutional جایگزین شده اند و لایه های حداکثر گلدان 2D با لایه های حداکثر گلدان حداکثر جایگزین می شوند. ورودی به شبکه دنباله ای از فریم های متوالی فیلم است که یک تنش از اندازه است (128 ، 128 ، 128). بعد اول بعد زمانی است و دوم و سوم ابعاد مکانی هستند. لایه های حلقوی سه بعدی از هسته های اندازه (3 ، 3 ، 3) استفاده می کنند و لایه های حداکثر استخر 3D از اندازه استخر (1 ، 2 ، 2) و گام های (1 ، 2 ، 2) استفاده می کنند. بنابراین استخر در واقع در بعد زمانی انجام نمی شود ، بنابراین خروجی هر لایه همیشه نقطه 128 را در طول زمان حفظ می کند. برای هر یک از شبکه های MVGG ما ، یک نسخه معادل 3D Convolutional داریم که ما به عنوان MVGG11-3D ، MVGG14-3D ، MVGG17-3D و MVGG20-3D بیان می کنیم.

یک مشکل در این معماری این است که بعد Convolution اضافی به پارامترهای بسیاری برای مدل در مقایسه با شبکه استاندارد MVGG نیاز دارد. برای کاهش تعداد پارامترها به همان ترتیب از بزرگی شبکه های MVGG ، ما فقط از یک سوم از تعداد فیلترها در هر بلوک در مقایسه با شبکه MVGG معادل استفاده می کنیم.

مجموعه جدیدی از مدلهایی که در اینجا معرفی می کنیم مدل های Convolutional-LSTM هستند ، که مشخص شده MVGG-LSTM است. اینها با جایگزینی لایه های 2D Convolution با لایه های LSTM 2D Convolutional ایجاد می شوند. علاوه بر این ، ما عادی سازی دسته را با عادی سازی لایه جایگزین می کنیم. سرانجام ، حداکثر عملیات جمع آوری همانند مدل های MVGG-3D است.

برای پایین نگه داشتن تعداد پارامترها ، ما تعداد فیلترهای موجود در هر حلقوی را با یک عامل 8 کاهش می دهیم ، به طور مشابه با نحوه کاهش تعداد فیلترها در مدل های MVGG-3D.

نتایج

شکل زیر صحت اعتبارسنجی برای هر یک از 12 مدل را نشان می دهد.

اولین چیزی که می بینیم این است که کوچکترین CNN سه بعدی کمی از CNN 2D بهتر است. اگر این واقعیت را در نظر بگیریم که تعداد پارامترهای این مدل نصف مرتبه قدر کمتر از حتی کوچکترین CNN 2D است ، اما مدل 3D CNN همان سطح عملکرد را حفظ می کند ، پس می توانیم این شواهد را در نظر بگیریم که مدل 3D CNNبر روی مدل 2D CNN بهبود می یابد. با این حال ، هنگامی که ما سعی می کنیم با افزایش تعداد لایه ها ، مدل های بزرگتر CNN را در نظر بگیریم ، با عملکرد تحقیرآمیز روبرو می شویم. همین داستان با مدلهای LSTM حلقوی وجود دارد ، به این ترتیب که کوچکترین مدل از هر مدل دیگری با کمی بهتر عمل می کند ، اما ما نمی توانیم به دلیل تخریب سریعتر در عملکرد ، این مدل را تا یک معماری عمیق تر مقیاس کنیم. این تخریب یک پدیده شناخته شده به نام "اشباع دقت" است و مانع اصلی یادگیری عمیق است که با ایجاد معماری شبکه باقیمانده ، که در ابتدا با عنوان RESNET شناخته می شود ، مورد توجه قرار گرفت. ایده این است که اضافه کردن لایه های اضافی به یک شبکه به روش ساده لوحانه تضمین و افزایش عملکرد را ندارد. در حقیقت ، حتی تضمین نمی کند که عملکرد کاهش یابد. این امر به این دلیل است که افزودن ساده لوحانه از لایه ها در واقع مجموعه ای از کارکردهایی را که شبکه در آن زندگی می کند به جای رشد دقیق آن تغییر می دهد. تخریب عملکرد زمانی اتفاق می افتد که این تغییر از عملکرد هدف دور باشد.

کار و نتیجه گیری آینده

نکته اصلی برای دستیابی به این مشکل تخریب با استفاده از اتصالات باقیمانده در شبکه است. در این روش اضافه کردن لایه های اضافی ، عملکرد هویت تضمین می شود که در مجموعه کارکردهایی که توسط این لایه اضافی به طور خاص آموخته شده است ، و بنابراین مجموعه ای از کلیه کارکردهایی که در آن شبکه کلی زندگی می کند می تواند به شدت رشد کند و تغییر نکند. یکی از کارهایی که ما می خواهیم برای ادامه این پروژه انجام دهیم این است که CNN پیچیده تر را با لایه های باقیمانده مانند کارآمد استفاده کنید و آن را به یک شبکه حلقوی سه بعدی یا یک شبکه LSTM حلقوی تبدیل کنید. کارآمد در بسیاری از کارهای تصویر وضعیت عملکرد هنری را نشان می دهد و به نظر می رسد اگر به درستی تقویت شود ، می تواند با مشکلات مبتنی بر فیلم نیز همین کار را انجام دهد. علاوه بر این ، ما همچنین دوست داریم انواع دیگر مشکل را در دید رایانه کشف کنیم. برآورد Pose Online نمونه دیگری از مشکل در الگوهای مکانی-زمانی است و از روشهایی که در این پروژه کاوش کردیم می تواند برای اجرای مدلهای رگرسیون استفاده شود که برای حل این مشکلات به طور موقت آگاه هستند.

فارکس وکسب درامد...
ما را در سایت فارکس وکسب درامد دنبال می کنید

برچسب : نویسنده : آرش اصل زاد بازدید : 47 تاريخ : جمعه 11 فروردين 1402 ساعت: 19:05