મૂળ સ્રોત: https://www.cc.gatech.edu/~parikh/relative.html
મારર પ્રાઇઝ (બેસ્ટ પેપર એવોર્ડ) વિજેતા, આઇસીસીવી ૨૦૧૧
દેવી પરીખ અને કૃષ્ટેન ગ્રૂમન
મેઘધનુષ્યમાં કોણ એ રેખા દોરી શકે છે જ્યાં જાંબલી રંગભેદ સમાપ્ત થાય છે અને નારંગી રંગભેદ શરૂ થાય છે? સ્પષ્ટ રીતે આપણે ત્યાં રંગોનો તફાવત જોઈ શકીએ છીએ, પરંતુ પ્રથમ એક સંમિશ્રિત રૂપે બીજામાં ક્યાં પ્રવેશ કરે છે? એકદમ વિવેક અને ગાંડપણથી.”
–હર્મન મેલવિલે, બિલી બુડડ
ફોટો 1: કુદરતી
ફોટો 2: ?
ફોટો 3: અકુદરતી
ફોટો 4: હસતા
ફોટો 5: ?
ફોટો 6: નો હસતા
[કાગળ] [માહિતી] [કોડ] [ડેમોસ] [સ્લાઇડ્સ] [વાતનો (વિડિઓ)] [પ્રચારપત્ર] [ભાષાંતરો]
તારણ
માનવ-નામના દ્રશ્યના “લક્ષણો” વિવિધ ઓળખાણના કાર્યોને લાભ આપી શકે છે. જો કે, અત્યાર ની તકનીકો આ ગુણધર્મોને અમુક વર્ગીકૃત નામપટ્ટી સુધી જ મર્યાદિત કરે છે (દાખલા તરીકે, વ્યક્તિ ‘હસતી’ હોય છે કે નહીં, દ્રશ્ય ‘સુકાઈ’ છે કે નહીં), અને તેથી વધુ ના સામાન્ય અર્થપૂર્ણ એવા સંબંધોને પકડવામાં નિષ્ફળ જાય છે. અમે સંબંધિત વિશેષતાઓના મોડેલનો પ્રસ્તાવ કરીએ છીએ. અહીં આપેલી તાલીમ માહિતી જણાવે છે કે ઓબ્જેક્ટ / સીન કેટેગરીઝ વિવિધ લક્ષણો અનુસાર કેવી રીતે સંબંધિત છે અમે અહીં લક્ષણ દીઠ ક્રમાંકન કાર્ય શીખીએ છીએ. ઉતરોતર શીખેલા કાર્યો નવલકથાની છબીઓમાં દરેક મિલકતની સંબંધિત તાકાતની આગાહી કરે છે. ત્યારબાદ અમે લક્ષણો ના ક્રમિક ઉત્પાદનની સંયુક્ત જગ્યા પર એક સર્જક મોડેલ બનાવીએ છીએ, અને શૂન્ય શોટ લર્નિંગના એક નવાજ સ્વરૂપનો પ્રસ્તાવ કરીએ છીએ જેમાં સુપરવાઈઝર, લક્ષણો દ્વારા અગાઉ જોઇ ન શકાય તેવા ઓબ્જેક્ટ કેટેગરીને દર્શાવે છે (ઉદાહરણ તરીકે, ‘રીંછ જીરાફ કરતા વધુ અસ્પષ્ટ છે) ‘). અમે આગળ બતાવીએ છીએ કે સૂચિત સંબંધી વિશેષતાઓ નવી છબીઓ માટેના સમૃદ્ધ પાઠ્ય વર્ણનોને કેવી રીતે સક્ષમ કરે છે,જે વ્યવહારમાં માનવ અર્થઘટન માટે વધુ ચોક્કસ છે. અમે ચહેરાઓ અને કુદરતી દ્રશ્યોના માહિતી સમૂહો પરનો અભિગમ દર્શાવીએ છીએ અને આ નવા કાર્યો માટે પરંપરાગત રીતે દ્વિસંગી લક્ષણની આગાહી કરતા તેના સ્પષ્ટ ફાયદા બતાવીએ છીએ.
પ્રેરણા
દ્વિસંગી લક્ષણો પ્રતિબંધક છે અને અકુદરતી હોઈ શકે છે. ઉપરોક્ત ઉદાહરણોમાં, જ્યારે કોઈ ઉપરની ડાબી અને ઉપરની જમણી બાજુએ અનુક્રમે કુદરતી અને માનવસર્જિત તરીકેની છબીનું લક્ષણ લાવી શકે છે, તો તમે ટોચ માં કેન્દ્રમાં છબીનું શું વર્ણન કરશો? તેની લાક્ષણિકતા લાવવાનો એકમાત્ર રસ્તો અન્ય છબીઓના સંદર્ભમાં એ છે: તે ડાબી બાજુની છબી કરતા ઓછી કુદરતી છે, પરંતુ જમણી બાજુની છબી કરતા વધુ છે.
દરખાસ્ત
આ કાર્યમાં,અમે સંબંધિત વિશેષતાઓના મોડેલનો પ્રસ્તાવ કરીએ છીએ. કોઈ લક્ષણની હાજરીની આગાહીના વિરોધમાં,સંબંધિત લક્ષણ અન્ય છબીઓના સંદર્ભમાં એક છબીમાં લક્ષણની તાકાત સૂચવે છે. વધુ કુદરતી હોવા ઉપરાંત, સંબંધિત વિશેષતાઓ સંચારનું વધુ સમૃદ્ધ પ્રદાન કરે છે, આમ વધુ વિગતવાર માનવ દેખરેખને કરવાની મંજૂરી આપે છે (અને તેથી સંભવિત માન્યતા ચોકસાઈ), તેથી જ નવલકથાની છબીઓના વધુ માહિતીપ્રદ વર્ણનો ઉત્પન્ન કરવાની ક્ષમતા છે.
અમે એક અભિગમ ઘડીએ છીએ જે ઉદાહરણોના જોડી પર સંબંધિત સમાનતાની મર્યાદાઓને ધ્યાનમાં રાખીને, અથવા દરેક ઉદાહરણો માટે ક્રમાંકિત કાર્ય શીખે છે (અથવા સામાન્ય રીતે કેટલાક ઉદાહરણો પર આંશિક ક્રમ આપતો હોય છે). શીખવ ક્રમિક કાર્ય તેમાં વિશેષતાની હાજરીની સંબંધિત તાકાત સૂચવતા છબીઓ માટે વાસ્તવિક-મૂલ્યવાન ક્રમનો અંદાજ લગાવી શકે છે.
અમે શુન્ય શોટ લર્નિંગ અને છબી વર્ણનના નવલકથા સ્વરૂપો રજૂ કરીએ છીએ જે સંબંધિત લક્ષણની આગાહીઓનું શોષણ કરે છે.
અભિગમ
શીખવાનું સબંધિત લક્ષણો વિશે: દરેક સંબંધિત લક્ષણ તેની રચનાને ક્રમ આપવાની શીખ દ્વારા શીખ્યા છે,અને તેને તુલનાત્મક દેખરેખ આપવામાં આવે છે,નીચે બતાવ્યા પ્રમાણે:
તાલીમ બિંદુઓ (1-6) પર ઇચ્છિત ક્રમને આપવાનો અમલ કરતું વિશાળ-ગાળા વાળા રેન્કિંગ ફંક્શન (જમણે) શીખવા વચ્ચેનો તફાવત, અને વિશાળ ગાળા વાળું બાઈનરી વર્ગ (ડાબે) કે જે ફક્ત બે વર્ગો (+ અને -) ને જુદા પાડે છે, અને નથી જરૂરી પોઇન્ટ્સ પર ઇચ્છિત ક્રમને સાચવવા નું અહીં નીચે બતાવેલ છે:
નોવેલ શૂન્ય શોટ શિક્ષણ: આપણે નીચેના સેટ-અપનો અભ્યાસ કરીએ છીએ
- N કુલ વર્ગખંડો : S સીન એવા વર્ગખંડો (તેની સાથે સંકંળાયેલ છબીઓ ઉપ્લ્ભ છે) +U નો દેખાય એવા વર્ગખંડો (આ વર્ગખંડ માં એક પણ છબી ઉપલબ્ધ નથી)
- S સીન એવા વર્ગખંડો પ્રકાર ની કેટેગરીઓને તેમના લક્ષણો દ્વારા એકબીજાને વર્ણવવામાં આવે છે (કેટેગરીની તમામ જોડીઓ બધા લક્ષણો માટે સંબંધિત હોવી જરૂરી નથી)
- આ U નો દેખાય એવા પ્રકાર ના વર્ગોમાં લક્ષણો (એક સબસેટ) લક્ષણોની દ્રષ્ટિએ જોયેલી કેટેગરીઝ (એક સબસેટ) સંબંધિત વર્ણવેલ છે.
આપણે પહેલા સીન કેટેગરીઝ પર પ્રદાન કરેલ નિરીક્ષણનો ઉપયોગ કરીને સંબંધિત લક્ષણોનો સમૂહ ની તાલીમ આપીએ છીએ. બહારના ડેટામાંથી આ વિશેષતાઓનું પ્રી-પ્રશિક્ષણ પણ કરી શકાય છે. ત્યારબાદ અમે સીન કેટેગરીની છબીઓના સંબંધિત લક્ષણોના પ્રતિસાદનો ઉપયોગ કરીને પ્રત્યેક સીન કેટેગરી માટે જનરેટિવ મોડેલ (ગૌસિયન) બનાવીએ છીએ. ત્યારબાદ અમે સીન કેટેગરીઝના સંદર્ભમાં તેમના સંબંધિત વર્ણનોનો ઉપયોગ કરીને અદ્રશ્ય વર્ગોના જનરેટિવ મોડેલોના પરિમાણોને શોધી કાઢીએ છીએ. આ માટે અમે રોજગારી આપીએ છીએ તે સરળ અભિગમનું દ્રશ્ય નીચે બતાવેલ છે:
હરોળ માં એક પરીક્ષણ છબી મહત્તમ શક્યતા સાથે સોંપવામાં આવી છે.
છબીઓની સંબંધિત મૂળ વર્ણનો આપમેળે ઉત્પન્ન થાય છે: એક છબી I ને વર્ણવા માટે,અમે I પરના તમામ શીખેલા ક્રમિક કાર્યોનું મૂલ્યાંકન કરીએ છીએ. દરેક લક્ષણ માટે, અમે I ની બંને બાજુએ પડેલી બે ખોટી સંદર્ભ છબીઓને ઓળખી કાઢીએ છીએ, અને તે I થી ખૂબ દૂર અથવા ખૂબ નજીક નથી. છબી I પછી આ બંને સંદર્ભ છબીઓને સંબંધિત વર્ણવેલ છે, નીચે બતાવ્યા પ્રમાણે:
ઉપર બતાવ્યા પ્રમાણે, અન્ય છબીઓની છબીનું વર્ણન કરવા ઉપરાંત, અમારો અભિગમ અન્ય કેટેગરીઝની તુલનામાં એક છબીનું વર્ણન પણ કરી શકે છે, પરિણામે તે સંપૂર્ણ મૂળ પાઠ્ય વર્ણન છે. આ થી સ્પષ્ટ રીતે, સંબંધિત વર્ણનો પરંપરાગત બાઈનરી વર્ણન કરતા વધુ ચોક્કસ અને માહિતીપ્રદ છે.
પ્રયોગો અને પરિણામો
અમે બે ડેટાસેટ્સ પર પ્રયોગો કરીએ છીએ:
- આઉટડોર સીન રેકગ્નિશન (ઓએસઆર) ૮ કેટેગરીમાં ૨૬૮૮ છબીઓ ધરાવે છે: કોસ્ટ C, ફોરેસ્ટ F, હાઇવે H, ઇન્સિડે સિટી I ,મોઉઅંટાઈન M, ઓપન-કન્ટ્રી O, સ્ટ્રીટ S અને ટોલ બિલ્ડિંગ T.છબીઓને રજૂ કરવા માટે અમે સારાંશનો ઉપયોગ કરીએ છીએ.
- પબ્લિક ફિગર્સ ફેસ ડેટાબેસ (પબફિગ) નો સબસેટ 8 કેટેગરીમાં 772 છબીઓ ધરાવે છે: એલેક્સ રોડ્રિગ એ, ક્લાઇવ ઓવેન સી, હ્યુ લૌરી એચ, જેરેડ લેટો જે, માઇલી સાયરસ એમ, સ્કાર્લેટ જોહાનસન એસ, વિગો મોર્ટનસેન વી અને ઝેક એફ્રોન ઝેડ. અમે છબીઓનું પ્રતિનિધિત્વ કરવા માટે કોંકેતેનાટેડ સારાંશ અને રંગ સુવિધાઓનો ઉપયોગ કરીએ છીએ.
દ્વિસંગી અને સંબંધિત લક્ષણ વિવરણ સાથે, દરેક ડેટાસેટ માટે વપરાયેલા લક્ષણોની સૂચિ નીચે બતાવેલ છે:
શૂન્ય શોટ શિક્ષણ:
અમે અમારા નક્કી કરેલા અભિગમને બે બેઝલાઈન સાથે સરખાવીએ છીએ. પ્રથમ પરિણામ-આધારિત સબંધિત લક્ષણ (એસઆરએ) છે. આ બેઝલાઈન અમારા અભિગમ જેવી જ છે, સિવાય કે તે ક્રમિક કાર્યના પરિણામ ને બદલે બાઈનરી ક્લાસિફાયર (બાઈનરી એટ્રિબ્યુટર્સ) ના પરિણામનો ઉપયોગ કરે છે. આ બેઝલાઈન શ્રેષ્ઠ મોડેલ આધારિત લક્ષણો માટે ક્રમિક કાર્યની આવશ્યકતાનું મૂલ્યાંકન કરવામાં મદદ કરે છે. અમારી બીજી બેઝલાઇન લેમ્પર્ટ એટ અલ દ્વારા રજૂ કરાયેલ ડાયરેક્ટ એટ્રિબ્યુટ પ્રેડિકેશન (ડીએપી) મોડેલ છે. જે સીવીપીઆર દ્વારા 2009 માં. આ બેઝલાઈન વર્ગીકૃતના વિરુદ્ધ લક્ષણોની સંબંધિત સારવારના ફાયદાઓનું મૂલ્યાંકન કરવામાં મદદ કરે છે. અમે આ દૃષ્ટિકોણનો ઉપયોગ વિવિધ સંખ્યામાં અદ્રશ્ય કેટેગરીઝ માટે, વિશેષતાઓને તાલીમ આપવા માટે ઉપયોગમાં લેવામાં આવતા વિવિધ પ્રમાણમાં ડેટા, અદ્રશ્ય વર્ગોનું વર્ણન કરવા માટે ઉપયોગમાં લેવામાં આવતા વિવિધ લક્ષણોની સંખ્યા અને અદ્રશ્ય વર્ગોના વર્ણનમાં ‘ઢીલાપના’ ના વિવિધ સ્તરો માટે કરીએ છીએ. પ્રાયોગિક સેટઅપની વિગતો અમારા કાગળમાં મળી શકે છે. પરિણામ અહીં નીચે બતાવમાં આવેલ છે:
સ્વ ઉદભવેલ છબીના વર્ણનો:
બાઈનરી સમકક્ષો માટે અમારી સંબંધિત છબીના વર્ણનોની ગુણવત્તાનું મૂલ્યાંકન કરવા માટે, અમે માનવ અભ્યાસ કર્યો.અમે અમારા અનુભવનો ઉપયોગ કરીને, તેમજ મૂળભૂત બાઈનરી વિશેષતાઓનો ઉપયોગ કરીને એક છબીનું વર્ણન પેદા કર્યું છે. અમે વર્ણન સાથે વિષયો પ્રસ્તુત કર્યા, આ ત્રણ છબીઓ સાથે. ત્રણ છબીઓમાંની એક છબી જેને વર્ણન કરવામાં આવી હતી. વિષયોનું કાર્ય અહીં ત્રણ છબીઓને ક્રમ આપવાનું હતું અને જેના આધારે તેમને લાગે છે કે જે વર્ણવવામાં આવી રહી છે તે સંભવિત છે.વધુ સ્પષ્ટ વર્ણન, વિષયોની યોગ્ય છબીને ઓળખવાની શક્યતા વધુ સારી કરે છે. વિષયોને આપેલા કાર્યનું ઉદાહરણ નીચે બતાવેલ છે:
અભ્યાસના પરિણામો નીચે બતાવ્યા છે. અમે એ જોયું છે કે બાઈનરી લક્ષણોની તુલનામાં, વિષયો અમારા સૂચિત સંબંધિત લક્ષણોનો ઉપયોગ કરીને યોગ્ય રીતે છબીને વધુ સ્પષ્ટ રૂપે ઓળખી શકે છે.
છબીઓના બાઈનરી વર્ણનો તેમજ વર્ગોને સંબંધિત વર્ણનોનું ઉદાહરણ નીચે બતાવેલ છે:
છબી | બાઈનરી વર્ણન | સંબંધિત વર્ણન |
---|---|---|
![]() | કુદરતી નથી, ખુલ્લું નથી, યથાર્થ ચિત્ર | ટોલ બિલ્ડીંગ કરતા વધુ કુદરતી, જંગલ કરતા ઓછું કુદરતી, ટોલ બિલ્ડીંગ કરતા વધુ ખુલ્લું, કોસ્ટ કરતા ઓછું ખુલ્લું, સારું યથાર્થ ચિત્ર ટોલ બિલ્ડીંગ કરતા |
![]() | કુદરતી નથી, ખુલ્લું નથી, યથાર્થ ચિત્ર | ઈન્સડિસિટી કરતા વધુ કુદરતી, હાઈવે કરતા ઓછું કુદરતી, ખુલ્લું સ્ટ્રીટ કરતા વધુ ખુલ્લું, કોસ્ટ કરતા ઓછું ખુલ્લું, યથાર્થ ચિત્ર વધારે સારું યથાર્થ ચિત્ર હાઈવે કરતા, ઓછું સારું યથાર્થ ચિત્ર ઈન્સડિસિટી કરતા |
![]() | કુદરતી, ખુલ્લું, યથાર્થ ચિત્ર | ટોલ બિલ્ડીંગ કરતા વધુ કુદરતી, મોઉન્ટાઇન કરતા ઓછું, ખુલ્લું વધારે ખુલ્લું મોઉન્ટાઇન કરતા, ઓછું યથાર્થ ચિત્ર ઓપેનકન્ટ્રી કરતા |
![]() | કુદરતી, ખુલ્લું, યથાર્થ ચિત્ર | એલેક્સરોડ્રિગ્યુઝ કરતા વધુ સફેદ, હસતું ન હોય એવું જેરેડલેટો કરતા વધુ હસતું,અને ઝેકએફ્રોન કરતા ઓછા, દૃશ્યમાન જેરેડલેટો કરતા વધુ દ્રશ્યમાન, માઇલીસાઇરસ કરતા ઓછું |
![]() | કુદરતી, ખુલ્લું, યથાર્થ ચિત્ર નથી | સફેદ એલેક્સરોડ્રિગ્યુઝ કરતા વધુ સફેદ, માઇલીસાયરસ થી ઓછું, હસતું ન હોય એવું હુઘલૌરી કરતા ઓછા હસતું, દ્રશ્યમાન નહીં ઝેકએફ્રોન કરતા વધુ દ્રશ્યમાન, માઇલીસાયરસ કરતાં ઓછું |
![]() | જુવાન નથી, ગુચ્છદાર ભમર, ગોળ મોઢૂ | છબી ૬ જુવાન નથી ક્લાઇવોવેન કરતા વધુ યુવાન, સ્કાર્લેટજોહન્સન કરતા ઓછો, ગુચ્છદાર ભમર ઝેકએફ્રોન કરતા વધુ ગુચ્છદાર ભમર,એલેક્સોડ્રિગ્યુઝ કરતા, ગોળ મોઢૂ ક્લાઇવેવેન કરતા વધુ ગોળ મોઢૂ, ઝેકએફ્રોન કરતા ઓછું |
ડેટા
અમારા કાગળમાં ઉપયોગમાં લેવાતા બે ડેટાસેટ્સ માટે અમે શીખેલા સંબંધિત લક્ષણો અને તેમની આગાહીઓ પ્રદાન કરીએ છીએ: આઉટડોર સીન રેકગ્નિશન (ઓએસઆર) અને પબ્લિક ફિગર્સ ફેસ ડેટાબેસ (પબ્ફિગ) નો સબસેટ.
સંબંધિત ચેરાનાં લક્ષણ માટે ડેટાસેટ. તેમાં પબ્લિક ફિગર્સ ફેસ ડેટાબેસ (પબફિગ) માંથી 60 કેટેગરીઝ પર 29 સંબંધિત લક્ષણો માટેના વિવરણ છે.
કોડ
સમાનતાની મર્યાદાઓ સાથે સંબંધિત લક્ષણોને તાલીમ આપવા માટે અમે ઓલિવર ચેપલની રેન્કએસવીએમ ના અમલીકરણમાં ફેરફાર કર્યા. અમારો સંશોધિત કોડ અહીં મળી શકે છે.
જો તમે અમારો કોડ વાપરો છો, તો કૃપા કરીને નીચે આપેલા કાગળ ટાંકો:
ડી.પરિખ અને કે.ગ્રુમન
સંબંધિત લક્ષણો
કમ્પ્યુટર વિઝન પર આંતરરાષ્ટ્રીય કોન્ફરન્સ (આઈસીસીવી), 2011.
ડેમોસ
સંબંધિત લક્ષણોના વિવિધ એપ્લિકેશનોના ડેમો અહીં મળી શકે છે. આ અરજીઓનું વર્ણન અહીંનાં કાગળોમાં મળી શકે છે.
પ્રકાશનો
ડી.પરીખ અને કે. ગ્રૂમન
કમ્પ્યુટર વિઝન પર આંતરરાષ્ટ્રીય પરિષદ (આઈસીસીવી), 2011. (ઓરલ)
મારર પ્રાઇઝ (બેસ્ટ પેપર એવોર્ડ) વિજેતા