लपलेल्या थरांमध्ये यादृच्छिक आवाज जोडणे नियमित करणे मानले जाते? असे करणे आणि ड्रॉपआउट आणि बॅच सामान्यीकरण यात काय फरक आहे?


उत्तर 1:

होय, लपलेल्या थरांमध्ये यादृच्छिक आवाज जोडणे ड्रॉपआउट प्रमाणेच एक नियमितता आहे. येथे मुख्य अंतर्ज्ञान अशी आहे की जर प्रत्येक थरातील मज्जासंस्थेचा प्रतिसाद गोंगाट करणारा असेल तर प्रशिक्षणाला आवाजापेक्षा मोठ्या असलेल्या क्लियरन्ससह वेगळ्या श्रेणींमध्ये वजन समायोजित करावे लागेल. अशाप्रकारे चाचणीच्या वेळी, आवाज नसल्यास, वर्गीकरण अधिक स्थिर असले पाहिजे. हे मॅक्स-मार्जिन वर्गीकरण कसे कार्य करते त्यासारखेच आहे आणि मॅक्स-मार्जिन तंत्र कसे यशस्वी झाले आहे हे आपल्या सर्वांना माहित आहे (उदा. सपोर्ट व्हेक्टर मशीन्स). तरी, आवाज आपल्याला सिग्नलवर ओलांडणार नाही याची दक्षता घ्यावी लागेल.

ड्रॉपआउटला नियमित करण्याची पद्धत मानली जाते कारण ती सरासरी मॉडेल करते. म्हणजेच प्रशिक्षणादरम्यान, विशिष्ट वेळी बिंदू असलेले मॉडेल म्हणजे न्यूरल नेटवर्क मॉडेलच्या एका वर्गावरील संभाव्यता वितरण ज्यामध्ये वजन निश्चित केले जाते परंतु मॉडेलमधील न्यूरॉन्सपैकी कोणतेही एक हरवले जाऊ शकते. प्रत्येक न्यूरॉन नेटवर्कची संपूर्ण संभाव्यता एखाद्या विशिष्ट न्यूरॉनची उपस्थित किंवा अनुपस्थित राहण्याची वैयक्तिक संभाव्यता निर्धारित केली जाते. हे नियमितीकरण आहे कारण ते प्रत्येक घटकाच्या पूर्वाभावावर सरासरी असते आणि खर्च कार्ये गुळगुळीत करते.

लपलेल्या थरात यादृच्छिक आवाज जोडणे त्याच प्रकारे कार्य करते, परंतु भिन्न संभाव्यतेच्या वितरणासह. निश्चित वजन ठेवण्याऐवजी, आपल्याकडे एक निश्चित टोपोलॉजी आहे आणि संभाव्यता वितरण "ख true्या" वजनाच्या, अर्थात आपण आपल्या हार्ड ड्राईव्हवर ठेवत असलेले वजन असलेल्या गौसी वितरणानुसार यादृच्छिक वजनाची निवड करते. पुन्हा, हे सरासरी मॉडेल आहे आणि त्याचा आवाज नियमितपणे प्रभाव पाळावा, या सावधतेने आवाज (रूपांतर) ने सिग्नलला ओलांडू नये. तर, उदाहरणार्थ, आपण प्रथम बॅचनॉर्म लागू केल्यास, आपल्याकडे अंदाजे प्रमाणित सामान्य आउटपुट प्रोफाइल असेल (भिन्नतेसह शून्यावर केंद्रित युनिट) आणि नंतर आपण ०.० असे बदलू शकता. काय कार्य करते हे पाहण्यासाठी आपण भिन्नतेसह खेळू शकता.

संपादित करा: प्रश्नाचा संदर्भ बॅचनॉर्म असल्याने, मला सांगायचे होते की बॅचॉर्नम खरोखरच नियमित करण्यासाठी वापरले जात नाही. म्हणजेच, बॅचनॉर्म किंमत सुलभ करीत नाही. त्याऐवजी, बॅकप्रॉपेशनची कार्यक्षमता सुधारित करण्यासाठी बॅचनॉर्म जोडला गेला. थोडक्यात, हे बचाव आणि रेंटरटरिंगद्वारे बरीच मोठी किंवा लहान होण्यापासून मागे पसरलेला ग्रेडियंट ठेवते; तंत्राच्या रूपात, यात दुय्यम-ऑर्डर ऑप्टिमायझेशन पद्धतींचे सखोल कनेक्शन आहेत जे किंमतीच्या पृष्ठभागाची वक्रता मॉडेल करण्याचा प्रयत्न करतात. मी वर नमूद केल्याप्रमाणे, बॅचनॉर्मचा वापर आपण तंत्रिका क्रियाकलापांमध्ये यादृच्छिक आवाज जोडत असल्यास संबंधित स्केलिंग योग्य असल्याची हमी देखील दिली जाऊ शकते.


उत्तर 2:

मी यास नियमित करण्यापेक्षा ऑप्टिमायझेशन युक्ती समजेल.

प्रभाव एसजीडीमधील स्टॉक्स्टीसिटीच्या परिणामाच्या समतुल्य असावा.

एसजीडी आणि त्याची प्रेरणा मॉन्टे कार्लो पध्दतीने वेगवान वंशाच्या दिशेने काटेकोरपणे अनुसरण करण्याऐवजी दरवेळी एकदा यादृच्छिक पाऊल टाकून गरीब स्थानिक मिनीमामध्ये अडकणे टाळते; किंवा त्यांच्या वेगवेगळ्या अवतारांमध्ये समकक्ष काहीतरी करत आहे उदा. वेळोवेळी यादृच्छिक पाऊल उचलण्याऐवजी प्रत्येक चरणात यादृच्छिक घटक जोडणे.

वजन कमी करण्यासाठी यादृच्छिक आवाज जोडणे तंतोतंत समान होईल. [इशारा: ग्रेडियंट डिसेंट प्रत्येक पुनरावृत्तीच्या वजनात काहीतरी जोडते!]


उत्तर 3:

सुधारणे:

प्रत्येक स्तराच्या इनपुट डेटामध्ये गौस-वितरित, यादृच्छिक आवाज जोडणे आपल्या नेटवर्कमध्ये आवाजास सिग्नलपेक्षा आवाज वेगळे करण्यास सक्षम करणार्‍या डेटामधील छोट्या बदलांसाठी अधिक मजबूत बनवते. झीशान झिया यांनी म्हटल्याप्रमाणे, हे मूलतः स्टॉकेस्टिक ग्रेडियंट सभ्य असेल. मी अद्यापही या नियमिततेचा विचार करणार नाही. हे आपल्या तंत्रज्ञानास सिग्नलपासून आवाज विभक्त करण्यासाठी नमुने शिकण्यास मदत करण्याचे आणखी एक तंत्र आहे.

ड्रॉपआउट प्रत्येक पासवरील लपलेल्या थरातील नोड्सचे विशिष्ट प्रमाण सहजगत्या अक्षम करते. हे नेटवर्क सुधारते कारण एकापेक्षा जास्त प्रकारे समान नमुने कसे ओळखता येतील हे शिकण्यास भाग पाडते ज्यामुळे एक चांगले मॉडेल होते.

बॅच नॉर्मलायझेशन असे आहे जेथे आपण इनपुटला थरात नेता आणि ते 0 आणि 1 मधील सर्व सामान्यीकृत असल्याची खात्री करतात. यामुळे नेटवर्क अधिक चांगले शिकण्यास मदत होते कारण हे ग्रेडियंट सभ्य आणि अधिक सुसंगत आणि गुळगुळीत ठेवते. अशाप्रकारे, आपण मिनीमाभोवती उडी मारणे टाळता कारण आपला ग्रेडियंट खूप मोठा आहे.