Development of an image-based deep neural network for human parsing for human behavior classification
PHYSICAL DESCRIPTION
Other Physical Details
۰۸ ص.
NOTES PERTAINING TO TITLE AND STATEMENT OF RESPONSIBILITY
Text of Note
حمیدرضا تقی راد
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Body granting the degree
صنعتی خواجه نصیرالدین طوسی
Date of degree
۱۴۰۱
Discipline of degree
مکاترونیک
SUMMARY OR ABSTRACT
Text of Note
تفکیک اجزای بدن مسئله ای بنیادین است که به جداسازی اعضای بیرونی بدن و لباس های افراد حاضر در تصویر به صورت پیکسل به پیکسل می پردازد و در دهه ی گذشته به دلیل کاربردهای عملی فراوان در فعالیت های انسان محور توجه بسیاری را درجامعه ی بینایی ماشین به خود جلب کرده است. کوچک بودن برخی اجزا و همچنین شباهتی که انواع لباس ها با یکدیگر دارند، از جمله چالش های اساسی این مسئله می باشند. با پیشرفت های اخیر در شبکه های عصبی عمیق، روش های مختلفی برای تفکیک اجزای بدن با استفاده از شبکه های عصبی پیچشی، ارائه شده است که به الگوریتم های بالا به پایین و پایین به بالا تقسیم می شوند. اغلب این روش ها فرآیند آموزش چند مرحله ای و پیچیدگی فراوان در پیاده سازی دارند، و به دلیل حجم بالای پردازش استفاده از آن ها در کاربردهای بلادرنگ غیر ممکن یا پرهزینه است. در این پایان نامه، یک معماری جدید به نام OLOP با استفاده از شبکه های پیچشی عمیق ارائه شده است که تفکیک اجزای بدن تمامی افراد موجود در تصویر ورودی را با استفاده از موقعیت آن ها تنها در یک مرحله و به صورت مستقیم انجام می دهد. این ساختار با بهره گیری از روش انتخاب فیلتر ها و به کارگیری هسته های پیچشی پویا، در مقایسه با روش های پیشین سرعت اجرا را بین سه تا پنج برابر افزایش داده است و امکان اجرا به صورت بلادرنگ را فراهم می سازد. علاوه بر ارائه ی ساختاری جدید، یک چارچوب نرم افزاری جدید نیز در این پایان نامه توسعه داده شده است که امکان ایجاد ساختارهای جدید و مقایسه ی آسان تر میان ساختارهای آتی را فراهم می کند.
Text of Note
Segmenting human body parts is a fundamental task that segment the external parts of the body and the clothes of the people in the image pixel by pixel, and in the last decade it has attracted a lot of attention in the computer vision community due to its many practical applications in human-centered activities. The smallness of some parts and also the similarity of some kinds of clothes with each other are among the basic challenges of this task. With recent advances in deep neural networks, various methods have been proposed to segment body parts using convolutional neural networks, which are divided into topdown and bottom-up algorithms. Most of these methods have a multi-step training process and great complexity in implementation, and due to the high processing volume, their use in real-time applications is impossible or expensive. In this thesis, a new architecture called POLO is presented using deep convolutional networks, which segment the body parts of all the people in the input image using their position in one step and directly. This structure has increased the speed by three to five times compared to the previous methods by using the method of selecting filters and using dynamic convolution kernels which provides the possibility of real-time execution. In addition to presenting a new structure, a new software framework has also been developed in this thesis, which allows the creation of new structures and easier comparison between future structures.