فصل 4 مدل های پاسخ دودویی

  • 2022-09-3

در این فصل مدل های پاسخ باینری را بررسی می کنیم ، که در آن متغیر وابسته فقط می تواند مقادیر صفر و یک را به خود اختصاص دهد. نمونه های اقتصادی معمولی متغیرهای باینری عبارتند از:

  • مشارکت بازار کار زنان.\ (y_i \): زن \ (i \) کار می کند/کار نمی کند. متغیرهای متغیر بالقوه: سن ، تحصیلات ، کودکان ، ...
  • چه کسی عضو اتحادیه کارگران است؟\ (y_i \): شخص \ (i \) عضو اتحادیه کارگران نیست. متغیرهای متغیر بالقوه: سن ، تحصیلات ، شغل ،…
  • پیش فرض اعتبار مصرف کننده ، امتیاز دهی اعتبار.\ (y_i \): شخص \ (i \) اعتبار خود را پرداخت نمی کند. متغیرهای متغیر بالقوه: درآمد ، تاریخ اعتبار ، بلوغ ، شغل ، سن ، وضعیت تأهل ، ...
  • انتخاب نحوه حمل و نقل.\ (y_i \): شخص \ (i \) از حمل و نقل عمومی برای سفر به محل کار استفاده نمی کند. متغیرهای بالقوه: فاصله ، هزینه ، ...

نظریه خرد اقتصادی اغلب در مجموعه بودجه محدب انتخاب مداوم را فرض می کند. با این حال ، در عمل بسیاری از گزینه ها لزوماً گسسته هستند ، به عنوان مثال ، خرید یک ماشین. علاوه بر این ، حتی متغیرهای مداوم ، مرتب شده یا چند منظوره گاهی به متغیرهای باینری تبدیل می شوند. به عنوان مثال ، یک متغیر باینری خوشحال/ناراضی می تواند از خوشبختی در مقیاس 0-10 حاصل شود ، جایی که نمره حداکثر 5 به ارزش "ناراضی" اختصاص می یابد ، و یک امتیاز بالاتر از 5 به عنوان "خوشحال" حساب می شود. در چنین شرایطی ما اطلاعات را از دست می دهیم ، با این حال ، این ساده سازی اغلب به دلیل مشخصات ساده و سهولت تفسیر آن ، اولین پاسخ خوب را ارائه می دهد.

4. 2 GLMS برای متغیرهای پاسخ باینری

به عنوان \ (y_i \ in \\) ، تنها مدل قابل تصور عملکرد احتمال Bernoulli با

جایی که \ (\ pi_i = \ text (y_i = 1~|~x_i) \) ، احتمال مشروط در مشاهده نتیجه یک. از این رو ، میانگین مشروط و واریانس شرطی عبارتند از:

\ [\ شروع \ متن (y_i~|~x_i) & = & \ pi_i ، \\ \ text (y_i~|~x_i) & = & \ pi_i~(1 - \ pi_i).\پایان\]

برای پارامتر شدن ، به طور معمول از رویکرد GLM استفاده می شود ، یعنی ، \ (g (\ pi_i)~=~x_i^\ top \ beta \) ، که در آن \ (g: [0 ، 1] \ RightArrow \ Mathbb \) تابع پیوند است.

4. 2. 1 توابع پیوند

همانطور که در فصل 2 مشتق شده است ، پیوند متعارف با ورود به سیستم (یا ورود به سیستم) مطابقت دارد.

مدل رگرسیون با این لینک به عنوان مدل Logit (رایج تر در اقتصاد سنجی) یا رگرسیون لجستیک (در آمار رایج تر است) شناخته شده است زیرا

عملکرد توزیع تجمعی (CDF) توزیع لجستیک است. همچنین ، به یاد بیاورید که پراکندگی \ (\ phi = 1 \) است و عملکرد واریانس \ (\ text (\ pi) = \ pi (1 - \ pi) \) است. به طور کلی ، سایر توابع توزیع تجمعی ، مشخص شده توسط \ (h (\ cdot) \) با \ (h: \ mathbb \ rightarrow [0 ، 1] \) ، یعنی توابع دیگری که یک عدد واقعی را روی فاصله واحد قرار می دهند ،همچنین می تواند به عنوان عملکرد پیوند معکوس استفاده شود:

توجه داشته باشید که عملکرد چگالی احتمال مرتبط (PDF) \ (H (\ cdot) \) سپس با \ (\ جزئی \ pi / \ جزئی \ eta \) مطابقت دارد ، یا در نماد GLM عمومی: \ (\ جزئی \ mu /\ جزئی \ eta \). متداول ترین جایگزین برای مدل های logit مدل پروبیت است که به عنوان \ (g (\ pi) = \ phi^(\ pi) \) تعریف شده است. در اینجا ، \ (h (\ eta) = \ phi (\ eta) \) عملکرد توزیع تجمعی عادی است. یک جایگزین دیگر ، پیوند ورود به سیستم مکمل ، تعریف شده به عنوان \ (g (\ pi) = \ log ( -\ log (1 -\ pi)) \) ، جایی که مربوطه \ (h (\ eta) = 1 -\ exp (-\ exp (\ eta)) \) CDF نوعی از توزیع با ارزش شدید یا gumbel است. اگرچه پیوند ورود به سیستم مکمل به طور معمول در اقتصاد سنجی استفاده نمی شود ، اما در R ، همراه با پیوندهای بیشتر در دسترس است. برای مقایسه پیوندهای Logit در مقابل Probit ، اجازه دهید تراکم آنها را بررسی کنیم:

توجه داشته باشید که هر دو توزیع در حدود صفر متقارن هستند. انحراف استاندارد از توزیع لجستیک استاندارد ، با این حال ، \ (\ pi/\ sqrt \ تقریبا 1. 814 \) است ، یعنی ، نه \ (1 \) در مورد توزیع عادی استاندارد. دامنه های \ (\ eta = 0 \) نیز بین دو پیوند متفاوت است: برای مدل های ورود0. 40 \). از این رو ، مقیاس گذاری با یک عامل \ (\ phi (0)/\ lambda (0) \ تقریبا 1. 60 \) متفاوت است. شکل دو توزیع بسیار مشابه است ، اما توزیع لجستیک دارای دم های تا حدودی سنگین تر است ، همانطور که در نمودار زیر نشان داده شده است. بنابراین ، اگر از مشاهدات در دمها (یعنی نزدیک به 0 یا 1) جلوگیری شود ، مدل های ورود به سیستم و پروبیت بسیار مشابه هستند. با این حال به خاطر داشته باشید که مقیاس بندی ضرایب متفاوت است.

Visual Comparison of Normal and Logistic Distribution

شکل 4. 1: مقایسه بصری توزیع طبیعی و لجستیک

انگیزه بیشتر برای استفاده از مدل پروبیت ، رویکرد متغیر نهفته است. بگذارید \ (y_i^*\) یک متغیر نهفته (به عنوان مثال ، غیرقابل کنترل) باشد که تمایل مداوم برای "موفقیت" ، به عنوان مثال ، به کار یا پیش فرض را ضبط می کند و در معرض برخی خطا قرار می گیرد (\ varepsilon_i \). اگر متغیر نهفته بیش از برخی از آستانه صفر باشد ، بدون از دست دادن کلی بودن ، موفقیت مشاهده می شود ، یعنی.

\ [\ شروع y_i^* & = & x_i^\ top \ beta~+~\ varepsilon_i \\ y_i & = & i (y_i^* \ ge 0)~=~\ترک کرد\< \begin 1 & \mbox \\ 0 & \mbox \end \right. y_i^* \ge 0. \end\]

بنابراین ، اگر \ (h (\ cdot) \) CDF خطای منفی \ (-\ varepsilon_i \) است:

\ [\ شروع \ pi_i & = & \ text (y_i^* \ ge 0~|~x_i)~=~\ متن (x_i^\ top \ beta + \ varepsilon_i \ ge 0~|~x_i) \\ & = & \ متن (\ varepsilon_i \ ge - x_i^\ top \ beta~|~x_i)~=~\ متن (- \ varepsilon_i \ le x_i^\ top \ beta~|~x_i) \\ & = & h (x_i^\ top \ beta).\پایان\]

در مدلهای پروبیت ، اگر اصطلاح خطای منفی به طور معمول با واریانس \ (\ sigma^2 \) توزیع شود و میانگین \ (\ mu \) (برای منعکس کردن یک آستانه متفاوت از صفر) ،

\ [\ شروع \ pi_i~=~\ متن (- \ varepsilon_i \ le x_i^\ top \ beta~|~x_i)~=~\ phi \ سمت چپ (\ frac \ راست)~=~\ phi (x_i^\ top \ tilde \ beta) \ end \]

جایی که \(\tilde \beta = ((\beta_1 - \mu)/\sigma، \beta_2/\sigma، \dots، \beta_k/\sigma)^\top\) . توجه داشته باشید که این احتمال به \(\beta\) و \(\sigma\) بستگی دارد، به طوری که نمی توان دو پارامتر جداگانه را شناسایی کرد. از آنجایی که فقط نسبت \(\beta/\sigma\) شناسایی می شود، اگر هر دو \(\beta\) و \(\sigma\) با یک ثابت مقیاس شوند، نسبت آنها و در نتیجه احتمال موفقیت تغییر نمی کند.. این منجر به تعداد نامحدود جفت پارامترهایی می شود که منجر به یک نتیجه می شود. ما این را فراپارامترسازی می نامیم. راه حل بیش از حد پارامتر، عادی سازی برخی از پارامترها است. برای مثال، اگر فقط تفاوت \(\beta_1 - \mu\) مشخص شود، می‌توانیم میانگین نهفته را روی صفر قرار دهیم (\(\mu = 0\)). در مورد مدل‌های پاسخ باینری، فقط نسبت \(\beta_j/\sigma\) شناسایی می‌شود، و بنابراین ما معمولاً مقیاس‌بندی متغیر پنهان \(\sigma = 1\) را اصلاح می‌کنیم، به طوری که پارامترها به‌طور منحصربه‌فرد تعریف می‌شوند..

به طور مشابه، پیوند لاجیت را می توان به عنوان یک متغیر پنهان با خطاهای لجستیکی، یا به طور متناوب، به عنوان یک مدل خطی در مقیاس log-odds مشاهده کرد، به عنوان مثال، تبدیل‌های نمایی را به مقیاس شانس در نظر گرفت. شانس به عنوان تعریف می شود

بنابراین، شانس را می توان به صورت محاسبه کرد

دو (گروه) آزمودنی را می‌توان به‌راحتی با نسبت‌های احتمالی مقایسه کرد:

به عنوان مثال، دو موضوع \(x_a\) و \(x_b\) را در نظر بگیرید که در آنها \(x_a = x_b + \Delta x_\) فقط برای \(l\) -امین رگرسیور یک واحد متفاوت است \(\Delta x_= (0, \dots, 1, \dots, 0)^\top\) . سپس، نسبت شانس بالا به \(\exp(\beta_l)\) ساده می شود و تغییر نسبی در نسبت شانس \(\exp(\beta_l) - 1\) است. توجه داشته باشید که برای \(\beta_l\) "کوچک" ، \(\exp(\beta_l) - 1 \approx \beta_l\) ، یعنی ضرایب کوچک را می توان مستقیماً به عنوان تغییرات نسبی در نسبت شانس تفسیر کرد.

4. 2. 2 تفسیر پارامترها

In the previous section, we have seen that the exp of a coefficient \(\exp(\beta_l)\) for \(l>1\) در یک مدل لاجیت را می توان به عنوان تغییرات نسبی در شانس "موفقیت" برای افزایش 1 واحدی در یک رگرسیون خاص \(x_l\) ، ceteris paribus تفسیر کرد. این روش تفسیر دو مشکل دارد: اولاً، این روش فقط برای مدل‌هایی با لینک لاجیت کار می‌کند. برای مدل‌های پروبیت، چنین تفسیر ceteris paribus در دسترس نیست. ثانیاً، تفسیر به جای احتمالات، بر حسب شانس است، که اکثر پزشکان تفسیر آن را آسان‌تر می‌دانند.

The intercept \(\beta_1\) is interpreted in logit models by taking its inverse link transformation \(\Lambda(\beta_1)\) , and interpret it as the probability of “success” for the case where all \(x_j=0\) for \(j>0\). این تفسیر از رهگیری به طور مشابه در مدل‌های پروبیت کار می‌کند، با \(\Phi(\cdot)\) به عنوان تبدیل پیوند معکوس. توجه داشته باشید که این تنها به یک ترکیب خاص از رگرسیورها مربوط می شود که ممکن است واقع بینانه باشد یا نباشد. برای مثال، بعید است که سن رگرسیون صفر را به عنوان یک مقدار در مجموعه داده‌های مربوط به بزرگسالان بگیرد.

گرافیک زیر تأثیرات متفاوتی را نشان می‌دهد که وقفه \(\beta_1\) و یک ضریب شیب تک \(\beta_2\) بر احتمال دارند، بسته به \(x\).

Effects of Coefficients on Probability

شکل 4. 2: اثرات ضرایب بر احتمال

می دانیم که در مدل رگرسیون خطی، پارامترهای \(\beta_j\) تغییرات مورد انتظار را در متغیر پاسخ ثبت می کنند.

با این حال، در GLM دو جمله ای، مشتقات جزئی، و بنابراین اثرات حاشیه ای، ثابت نیستند:

برخی از خواص مهم MPE عبارتند از:

  • علامت اثر حاشیه ای برابر با علامت \(\beta_l\) است.
  • این اثر برای \(x_i^\top \beta = 0\) برای متقارن تک وجهی \(h(\cdot)\) بزرگترین است.
  • تأثیر در افراد متفاوت است

در عمل ، ما معمولاً اثرات "معمولی" را با انتظارات گزارش می دهیم. این می تواند به دو روش انجام شود: ما یا اثر احتمال حاشیه مورد انتظار (MPE) را تخمین می زنیم (\ text_x (h (x_i^\ top \ beta)) \ beta_l \) با متوسط mpe (ampe) \ (1/n \ sum_^^n h (x_i^\ top \ beta) \ beta_l \) ، یا ما MPE را در رگرسیون مورد انتظار تخمین می زنیم \ (h (e (x)^\ top \ beta) \ beta_l \) توسط mpe در میانگین رگرسور \ (h (\ bar (\ bar (\ barx^\ top \ beta) \ beta_l \). به یاد داشته باشید که استفاده از وسایل برای رگرسیون مداوم می تواند قابل قبول باشد اما تفسیر برای رگرسیون های طبقه بندی دشوار است ، و بنابراین برای متغیرهای ساختگی مربوط به آن ها نیز دشوار است. یک راه حل بهتر ارزیابی MPE در گروه های مختلف (به عنوان مثال ، خارجی و سوئیسی ، زن و مرد) یا در عوض ، ارزیابی تأثیر گرافیکی با ترسیم \ (\ text (Y~|~x) \) در برابر \ (x_l \) ، در حالی که همه را به جز \ (l \) -رگرسیونر در یک مقدار معمولی مانند \ (\ bar x_ \) نگه دارید. به عبارت دیگر ، ما تأثیر حاشیه ای از یک رگرسور منتخب را بررسی می کنیم ، در حالی که همه رگرسیون های دیگر را به معنای متوسط خود برطرف می کنیم. به خاطر داشته باشید که تمام محاسبات قبلی فرض می کنند که بین متغیرها و رگرسیون ها رابطه یک به یک وجود دارد (x_ \). این زمانی نقض می شود که متغیرها در رگرسیون های متعدد ، به عنوان مثال ، در تعامل یا چند جمله ای اتفاق می افتند. به عنوان مثال ، در مورد چند جمله ای درجه دوم \ (\ متن (y~|~x) = h (\ beta_1 + \ beta_2 x + \ beta_3 x^2) \):

\ [\ شروع \ frac<\partial \text(y~|~ x)> <\partial x>~=~H (\ beta_1 + \ beta_2 x + \ beta_3 x^2) \ cdot (\ beta_2 + 2 \ beta_3 x).\پایان\]

این به طور معمول در بسته های نرم افزاری که محاسبات خودکار اثرات حاشیه ای را ارائه می دهند ، نادیده گرفته می شود. در R ، ما می توانیم از بسته حاشیه هایی استفاده کنیم که به درستی با چند جمله ای سروکار دارد.

4. 2. 3 مثال: مشارکت کار سوئیس

در این بخش ، ما قصد داریم داده های مقطعی در مورد مشارکت نیروی کار سوئیس را مورد تجزیه و تحلیل قرار دهیم ، که منشأ Somipops بررسی سلامت برای سوئیس در سال 1981 است (Gerfin 1996). قاب داده شامل 872 مشاهده در 7 متغیر زیر است:

جدول 4. 1: متغیرهای موجود در مجموعه داده های کار سوئیس
متغیر شرح
مشارکت عامل. آیا فرد در نیروی کار شرکت کرده است؟
درآمد لگاریتم درآمد غیرقانونی.
سن سن در دهه ها (سالهای تقسیم بر 10).
تحصیلات سالها آموزش رسمی.
بچه های جوان تعداد کودکان خردسال (زیر 7 سال).
بچه های قدیمی تعداد کودکان بزرگتر (بیش از 7 سال).
خارجی عامل. آیا فرد خارجی است؟

Labor Participation Depending on Age and Education

شکل 4. 3: مشارکت کار بسته به سن و تحصیلات

  1. برآورد: اول ، ما یک مدل ورود به سیستم با تمام متغیرهای توضیحی قرار می گیریم (~واددر r) ، و یک چند جمله ای درجه دوم در سن.
  1. پیش بینی: سپس ، ما پیش بینی های متغیر پاسخ \ (\ hat \ pi_i \) را محاسبه می کنیم.(پیش فرض پیش بینی پیش بینی خطی \ (\ hat \ eta_i \).)
  1. نسبت شانس: ابتدا نسبت به شانس کار بین زنان خارجی و سوئیسی ، اول ، بدون استاندارد کردن برای سایر رگرسیونرها ، محاسبه کنید. یکی از راه های انجام این کار ، محاسبه یک جدول احتمالی تجربی ، نسبت های مرتبط ، شانس و نسبت شانس است. راه دوم برای محاسبه نسبت شانس ، قرار دادن GLM دوتایی با لینک ورود و گرفتن ضریب تخمین زده شده برای متغیر نشانگر خارجی است که منجر به همان نتیجه می شود:

ما همچنین می توانیم نسبت شانس را برای تغییر یک واحد حاشیه ای در همه متغیرها (ceteris paribus) محاسبه کنیم.

همانطور که قبلا ذکر شد، ما باید مراقب چندجمله ای ها باشیم زیرا فرض یک رابطه یک به یک بین متغیر و رگرسیون ها نقض می شود زیرا متغیر در رگرسیورهای متعدد رخ می دهد. برای مثال در این مدل به دلیل چند جمله ای بودن سن، نسبت شانس به خود سن بستگی دارد. یک سال تغییر سن را برای یک زن 30 و 50 ساله در نظر بگیرید.

بنابراین می توانیم از بسته حاشیه برای محاسبه اثرات احتمال حاشیه ای مورد انتظار (MPE) استفاده کنیم:

  1. اثرات: برای ارزیابی نموداری یافته‌هایمان، تغییر احتمال را برای یک تغییر جزئی (یک واحد) در یک رگرسیور، با توجه به مقادیر معمولی برای همه رگرسیون‌های دیگر، تجسم می‌کنیم. برای اینکه R بفهمد که سن و |I(سن^2)|باید به عنوان یک عبارت واحد در نظر گرفته شود، به جای اضافه کردن دومی به عنوان یک پس‌گر اضافی، از poly(سن، 2، خام = TRUE) استفاده کنید.

تجسم با استفاده از بسته افکت:

Effects of Explanatory Variables on Labor Force Participation - Logit Model

شکل 4. 4: اثرات متغیرهای توضیحی بر مشارکت نیروی کار - مدل لاجیت

  1. استنباط: در مرحله بعد می توانیم آزمایش کنیم که آیا یک چند جمله ای درجه دوم در آموزش به طور قابل توجهی مدل را بهبود می بخشد:
  • تست والد:
  • آزمون نسبت درستنمایی (از طریق تحلیل انحراف):
  • آزمون نسبت درستنمایی (از طریق رویکرد lmtest عمومی):
  1. مدل پروبیت: تخمین پروبیت به نتایج تقریباً یکسانی منجر می شود.
مدل لاجیت مدل پروبیت
(رهگیری) 6. 196** 3. 749**
(2. 383) (1. 407)
درآمد −1. 104*** −0. 667***
(0. 226) (0. 132)
تحصیلات 0. 033 0. 019
(0. 030) (0. 018)
poly(سن، 2، خام = TRUE)1 3. 437*** 2. 075***
(0. 688) (0. 405)
poly(سن، 2، خام = TRUE)2 −0. 488*** −0. 294***
(0. 085) (0. 050)
بچه های جوان −1. 186*** −0. 714***
(0. 172) (0. 100)
بچه های قدیمی −0. 241** −0. 147**
(0. 084) (0. 051)
خارجی بله 1. 168*** 0. 714***
(0. 204) (0. 121)
Num. Obs. 872 872
AIC 1033. 6 1033. 2
BIC 1071. 7 1071. 3
Log. Lik. −508. 785 −508. 577
F 20. 055 22. 819
RMSE 1. 09 1. 09

Effects of Explanatory Variables on Labor Force Participation - Probit Model

شکل 4. 5: اثرات متغیرهای توضیحی بر مشارکت نیروی کار - مدل پروبیت

4. 2. 4 مدل احتمال خطی

به جای استفاده از GLM های باینری، بسیاری از پزشکان اجرای رگرسیون خطی را با استفاده از OLS روی یک پاسخ کدگذاری شده 0/1 ترجیح می دهند. این به عنوان مدل احتمال خطی نیز شناخته می شود. مزیت اصلی این است که ضرایب را می توان مستقیماً به عنوان تغییرات حاشیه ای در احتمال موفقیت بدون در نظر گرفتن هرگونه تغییر نسبی در شانس یا سایر تبدیل های غیر خطی تفسیر کرد.

با این حال، این مزیت به صورت رایگان ارائه نمی شود. واضح است که OLS نمی تواند تخمینگر کارآمدی باشد زیرا مشاهدات دوتایی (یعنی از توزیع برنولی) لزوماً ناهمسان هستند و واریانس همراه با میانگین تغییر می کند: \(Var(y_i)~|~x_i) = \pi_i \cdot (1 - \pi_i)\) . اما پزشکان استدلال می کنند که حتی در شرایط ناهمگونی، برآوردگر OLS سازگار است و استنتاج را می توان به راحتی با استفاده از خطاهای استاندارد ساندویچ "محکم" تنظیم کرد.

این سازگاری تنها با این فرض به دست می آید که معادله میانگین \(E(y_i~|~x_i) = \pi_i = x_i^\top \beta\) به درستی مشخص شده است. از آنجایی که احتمال موفقیت \(\pi_i \در [0, 1]\) محدود است در حالی که پیش‌بینی‌کننده خطی \(x_i^\top \beta\) محدود نیست، این فرض نمی‌تواند به طور کلی برقرار باشد. علاوه بر این، از آنجایی که واریانس تغییر مستقیم انتظارات در رگرسیون های باینری برای داده های مقطعی است، نمی توان دومی را به درستی مشخص کرد و به طور بالقوه اولی را اشتباه تعیین کرد. بنابراین، اگر واریانس اشتباه مشخص شود، انتظار نیز وجود دارد و OLS ناسازگار است. برعکس، اگر انتظار به درستی مشخص شود، واریانس نیز شناخته شده است و نیازی به استفاده از خطاهای استاندارد ساندویچ "محکم" نیست.

بنابراین ، از منظر نظری ، توجیه مدل احتمال خطی دشوار است. با این حال ، یک عمل عملی تر این است که فرض خطی برای انتظار ممکن است در عمل به اندازه کافی خوب عمل کند ، حداقل اگر احتمالات مناسب از افراط و تفریط \ (0 \) و \ (1 \) به طور واضح جلوگیری شود. در چنین مواردی ، اثرات حاشیه ای از GLM باینری به طور معمول تقریباً ثابت و تقریباً برابر با ضرایب مدل احتمال خطی است.

به عنوان نمونه ، اتصالات زیر یک مدل خطی را به داده های مشارکت نیروی کار سوئیس مراجعه کنید. توجه کنید که هر دو میانگین مشروط و واریانس در این مدل غلط شناخته شده اند.

Linear vs. Probit model fitted values

شکل 4. 6: مقادیر متناسب با مدل خطی در مقابل پروبیت

مدل خطی مدل پروبیت
(رهگیری) 1. 664 *** 3. 749**
(0. 397) (1. 327)
درآمد −0. 213 *** −0. 667***
(0. 036) (0. 127)
سن 0. 683 ***
(0. 120)
تحصیلات 0. 007 0. 019
(0. 006) (0. 018)
بچه های جوان −0. 241 *** −0. 714***
(0. 030) (0. 106)
بچه های قدیمی . 0. 049 ** −0. 147**
(0. 017) (0. 052)
خارجی بله 0. 250 *** 0. 714***
(0. 040) (0. 122)
من (سن^2) . 0. 097 ***
(0. 015)
poly(سن، 2، خام = TRUE)1 2. 075***
(0. 399)
poly(سن، 2، خام = TRUE)2 −0. 294***
(0. 050)
Num. Obs. 872 872
R2 0. 193
R2 adj. 0. 186
AIC 1091. 3 1033. 2
BIC 1134. 2 1071. 3
Log. Lik. 536. 647 −508. 577

4. 3 مدل های انتخاب گسسته

مدل های انتخاب گسسته بر اساس حداکثر رساندن ابزار تصادفی ، انگیزه اقتصادی دیگری برای استفاده از مدلهای باینری فراهم می کند. آنها مدل های پاسخ باینری را با مدل های میکرو اقتصادی انتخاب بر اساس مشکلات حداکثر سازی ابزار در معرض محدودیت ها قرار می دهند. انتخاب بین دو گزینه \ (a \) و \ (b \) (به عنوان مثال ، محصولات/مارک ها) را با ویژگی های جایگزین خاص \ (z_ \) و \ (z_ \) (به عنوان مثال ، قیمت) و ویژگی های خاص فردی در نظر بگیرید.\ (x_i \) (به عنوان مثال ، سن). عملکرد ابزار خطی با اصطلاحات خطای تصادفی (که به آن ابزار تصادفی نیز گفته می شود) عبارت است از:

\ [\ u_ & = & x_i^\ top \ beta_a~+~z _^\ top \ gamma~+~\ varepsilon_ ، \\ u_ & = & x_i^\ top \ beta_b~+~z _^\ top \ gamma~+~\ varepsilon_.\پایان\]

Person \(i\) chooses alternative \(A\) (“success”: \(y_i = 1\) ) if the corresponding utility is larger \(u_ >u_ \). بنابراین ، احتمال انتخاب \ (a \) است

\[\begin & = & \text (u_ >تو~|~x_i ، z_ ، z_) \\ & = & \ text (x_i^\ top (\ beta_a - \ beta_b) + (z_ - z _)^\ top \ gamma + (\ varepsilon_ - \ varepsilon_)~\GE~0~|~x_i ، z_ ، z_) \\ & = & \ text (- \ varepsilon_i~\~x_i^\ top \ beta~+~z_i^\ top \ gamma~|~x_i ، z_i) \\ & = & \ متن (- \ varepsilon_i~\~^\ top \ beta^*~|~x^*_ i) \\ & = & h (^\ top \ beta^*) ، \ end \]

اگر ما \ (\ beta = \ beta_a - \ beta_b \) را بنویسیم ، \ (z = z_a - z_b \) ، \ (\ varepsilon = \ varepsilon_a - \ varepsilon_b \) ، و \ (\ beta^** = (\ beta^* = (\ beta^* = (\ beta^* = (\ beta^* = (\ beta^* = (\ beta^* = (\ beta^* = (- \ beta_b ، \ gamma) \) ، \ (x^*_ i = (x_i ، z_ - z _) \). توجه کنید که فقط تفاوت بین ضرایب دو گزینه \ (\ beta = \ beta_a - \ beta_b \) مشخص شده است. علاوه بر این ، پارامترهای خاص جایگزین \ (\ گاما \) فقط در صورتی تخمین زده می شود که ویژگی ها \ (z_ - z_ \) در افراد متفاوت باشد \ (i \).

رهگیری در این مورد نشان می دهد که آیا گزینه ceteris paribus \ (a \) یا \ (b \) جذاب تر است. علاوه بر این ، اگر ابزار به طور معمول توزیع شود ، یعنی اگر \ (\ varepsilon_a \) و \ (\ varepsilon_b \) به طور معمول توزیع می شوند ، تفاوت در خطاها \ (\ varepsilon \) نیز عادی است که منجر به مدل پروبیت می شود. با این حال ، اگر فرض بر این باشد که مؤلفه تصادفی از ابزار دارای مقدار شدید یا توزیع Gumbel باشد ، تفاوت \ (\ varepsilon \) دارای توزیع لجستیک است ، بنابراین منجر به مدل ورود می شود. با توجه به انگیزه آنها ، این مدل ها نیز مدل های ابزار تصادفی (RUM) نامیده می شوند.

4. 4 خوبی از تناسب

اندازه گیری خوب بودن تناسب در داده های باینری نسبت به عددی بحث برانگیزتر است و دو ایده اصلی برای ارزیابی آن وجود دارد. یکی استفاده از یک اندازه گیری مشابه به عنوان \ (r^2 \) در رگرسیون خطی ، یعنی ایجاد یک اندازه گیری است که نشانگر خوب بودن تناسب در فاصله واحد است. یک مشکل در اندازه گیری خوب بودن تناسب از نظر \ (r^2 \) ، حتی در داده های عددی ، این است که همیشه ارزیابی آنچه که به عنوان یک مدل خاص (R^2 \) حساب می شود ، مشکل ساز است. مدلهای کلان اقتصادی ، که در آن بیشتر مقادیر ورودی به شدت جمع می شوند ، به طور معمول بسیار بالاتر از آن هستند (R^2 \) از آنچه می توان به عنوان مثال برای مدل های انتخاب فردی دست یافت. با این وجود ، در یک رگرسیون خطی ، \ (r^2 \) معنای و تفسیر روشنی را به عنوان تجزیه واریانس دارد. این مورد در مورد مدلهای باینری نیست ، بنابراین ما این شبه \ (r^2 \) را می نامیم. یک شبه \ (r^2 \) خوبی بودن یک مدل باینری را در فاصله واحد اندازه گیری می کند ، جایی که 0 نشانگر عدم تناسب کامل است ، و 1 مطابق با یک تناسب کامل است. با این حال ، این اقدامات به طور معمول در فاصله واحد متناسب نیستند ، بنابراین تفسیر آنها دشوار است. ما ابتدا برخی از گزینه های مورد استفاده را برای اقدامات شبه \ (r^2 \) بررسی می کنیم.

McFadden \ (r^2 \) به روش زیر ساخته شده است: به عنوان \ (\ el (\ beta) \ le 0 \) ، می توان از آن سوء استفاده کرد (| \ ell (\ hat \ beta) | \ le | \ell (\ bar \ beta) | \) که در آن \ (\ bar \ beta \) مناسب از مدل فقط رهگیری است.

این فقط در حد پیش بینی کامل به \ (1 \) تبدیل می شود. یک شبه دیگر \ (r^2 \) اندازه گیری توسط McKelvey و Zavoina \ (r^2 \) از مجموع خطای مربع ها (\ (\ mathit \)) و جمع باقیمانده مربع ها (\ (\ mathit \)) در یک استفاده می کند. مقیاس پیش بینی خطی.

جایی که واریانس \ (\ sigma^2 \) توسط عملکرد پیوند ، یعنی ، \ (\ sigma^2 = 1 \) برای پروب و \ (\ sigma^2 = \ pi^2/3 \) تعیین می شود. ورود به سیستمCox و Snell \ (R^2 \) از احتمال ورود به سیستم استفاده می کنند:

و آخر اینکه ، Nagelkerke/Cragg و Uhler \ (R^2 \) یک نسخه عادی از \ است (R_<\mathsf>^2 \) ، زیرا حداکثر آن \ (r_<\mathsf>^ 2 = 1 - l (\ bar \ beta)^ \ neq 1 \).

برای داده های باینری بسیار شبه \ (r^2 \) وجود دارد ، و هیچ اندازه گیری جهانی یا حتی "بهترین" \ (r^2 \) در دسترس نیست.

دومین امکان برای اندازه گیری خوب بودن تناسب در مدلهای باینری ، ارزیابی عملکرد پیش بینی مدل ، یعنی ارزیابی در نمونه یا خارج از پیش بینی های نمونه است. برای نشان دادن این موضوع ، بیایید مشخصات Logit و Probit را برای داده های کار سوئیس مقایسه کنیم .:

ما می توانیم ببینیم که هر دو مدل به نظر می رسد متناسب با یکسان هستند. بنابراین ما با انتخاب مقداری برش \ (C \) ، یک ماتریس سردرگمی ، که یک جدول احتمالی از مقادیر مشاهده شده در مقابل پیش بینی شده است ، ایجاد می کنیم. قطع \ (C = 0. 5 \) به این معنی است که تحت احتمال 0. 5 ، یک زن پیش بینی می شود که در نیروی کار شرکت نکند ، در حالی که برای احتمال بیش از 0. 5 پیش بینی می شود که این کار را انجام دهد. این پیش بینی های صحیح (مورب اصلی: منفی واقعی و مثبت واقعی) و پیش بینی های نادرست (خارج از مورب: منفی کاذب و مثبت کاذب) را به همراه دارد.

سپس می توان تمام برش های قابل تصور را در نظر گرفت \ (C \ در [0 ، 1] \) و محاسبه اقدامات مختلف عملکرد.

  • دقت: \ (\ mathsf (c) \) نسبت پیش بینی های صحیح (در بین تمام مشاهدات) است.
  • نرخ مثبت واقعی: \ (\ mathsf (c) \) نسبت پیش بینی های صحیح (در بین مشاهدات با \ (y_i = 1 \)) است.
  • نرخ مثبت کاذب: \ (\ mathsf (c) \) نسبت پیش بینی های نادرست (در بین مشاهدات با \ (y_i = 0 \)) است.
  • ویژگی اپراتور گیرنده: \ (\ mathsf = \< (\mathsf(c), \mathsf(c)) ~|~ c \in [0, 1] \>\)در حالت ایده آل ، این باید تا حد امکان به گوشه بالایی سمت چپ ((0 ، 1) \) نزدیک باشد.
  • مساحت زیر منحنی: اندازه گیری کل که خلاصه کل منحنی ROC است ، منطقه مرتبط با آن در زیر منحنی (AUC) است.

در R ، تمام این اقدامات به راحتی با استفاده از بسته ROCR قابل محاسبه و ترسیم هستند. ابتدا یک شی با مقادیر پیش بینی شده و مشاهده شده تنظیم کنید:

سپس دقت را محاسبه و طرح کنید:

محاسبه و طرح نرخ مثبت کاذب در مقابل نرخ مثبت واقعی ، یعنی منحنی ROC:

Accuracy at Different Cutoffs and ROC Curve

شکل 4. 7: دقت در برش های مختلف و منحنی ROC

4. 5 پیش بینی کامل و (شبه) جدایی کامل

(ورود به سیستم) احتمال توسط:

عملکرد احتمال "خوب رفتار" است: محدود شده است و می تواند در سطح جهانی مقعر برای ورود به سیستم/پروبیت باشد. با این حال ، حداکثر لازم نیست برای محدود \ (\ بتا \) فرض شود. به عنوان مثال ، بیایید فرض کنیم که یک رگرسیون \ (K+1 \) وجود دارد که کاملاً با پاسخ ارتباط دارد ، به عنوان مثال ، \ (x_ = 0 \) اگر \ (y_i = 0 \) و \ (x_ = 1 \)) اگر \ (y_i = 1 \) ، یعنی نتیجه \ (y_i \) \ (0 \) هر زمان که رگرسیون \ (0 \) باشد ، و \ (1 \) هر زمان که رگرسیون می گیرد \ (1 \ (1 \)) به عنوان یک مقدار. با استفاده از \ (\ tilde x_i = (x_i ، x _) \) و \ (\ tilde \ beta = (\ beta ، \ beta _)^\ top \):

در حالی که دوره دوم می تواند طبق معمول به حداکثر برسد ، دوره اول به صورت یکنواخت در \ (\ beta_ \) افزایش می یابد. بنابراین ، برای logit/probit ، حداکثر (\ (= 0 \)) فقط در حد مجاز برای \ (\ beta_ \ راست \ infty \) بدست می آید. به طور کلی ، ما می گوییم که اگر یک \ (\ beta_0 \) وجود داشته باشد ، داده ها کاملاً جدا از هم جدا می شوند

\ [\ شروع y_i~=~0 \ mbox< if >x_i^\ top \ beta_0~\~0 ، \\ y_i~=~1 \ mbox< if >x_i^\ top \ beta_0~\GE~0. \\ \ پایان \]

در حالی که اگر نابرابری دقیق باشد ، کاملاً از هم جدا می شوند. در کلمات ، جدایی کامل هنگامی اتفاق می افتد که یکی از رگرسیون ها با نتیجه کاملاً ارتباط داشته باشد ، در حالی که جدایی شبه کامل هنگامی اتفاق می افتد که یک رگرسیونر بتواند حداقل یکی از کلاسهای حاصل را به طور کامل پیش بینی کند.

دو راه حل ممکن برای مشکل جدایی کامل (شبه) وجود دارد. گزینه اول ارزیابی گروههای جدا شده است ، اگر اعتقاد بر این باشد که جدایی به جای یک اتفاق ساختاری است. مورد دوم استفاده از برخی از برآوردگرهای منظم (به عنوان مثال ، با مجازات در \ (| \ بتا | \)) است. برای نمونه ای از جدایی شبه کامل ، بیایید یک مجموعه داده های مقطعی را در مورد اعدام در ایالات مختلف در سال 1950 بررسی کنیم (مادالا 2001 ، جدول 8. 4 ، ص 330) ، حاوی 44 مشاهده در 8 متغیر.

جدول 4. 2: متغیرها در مجموعه داده های اعدام های مادالا
متغیر شرح
نرخ نرخ قتل در هر 100000 (برآورد FBI ، 1950).
اعتقادات تعداد محکومیت های تقسیم شده توسط قتل ها در سال 1950.
اعدام میانگین تعداد اعدام ها در سالهای 1946-1950 توسط محکومیت ها در سال 1950 تقسیم شده است
زمان زمان متوسط (در ماه ها) قاتلان محکوم آزاد شده در سال 1951 خدمت کرد.
درآمد درآمد متوسط خانواده در سال 1949 (در 1000 دلار).
LFP میزان مشارکت نیروی کار در سال 1950 (در درصد).
غیر مشترک نسبت جمعیت غیر قفقازی در سال 1950.
جنوبی فاکتور نشان دهنده منطقه.

توجه کنید که متغیر جنوبی دارای ضریب بزرگ و یک خطای استاندارد بسیار بزرگ است. به همین دلیل ، حتی اگر متغیر مرتبط باشد ، تخمین ضرایب و مقادیر p معنی دار نیست (برای دومی ، استنباط غیر استاندارد لازم است).

پیش فرض تکرارهای بیشتر
(رهگیری) 10. 993 10. 993
(20. 773) (2. 077E+01)
زمان 0. 019+ 0. 019+
(0. 010) (1. 000E - 02)
درآمد 10. 610+ 10. 610+
(5. 654) (5. 654e+00)
غیر مشترک 70. 988+ 70. 988+
(36. 412) (3. 641e+01)
LFP 60. 668 60. 668
(0. 477) (4. 770e - 01)
جنوب غربی 17. 331 31. 331
(2872. 171) (1. 733e+07)
Num. Obs. 44 44
AIC 29. 5 29. 5
BIC 40. 2 40. 2
Log. Lik. 8. 732 8. 732
F 1. 520
RMSE 0. 68 0. 68

با مقایسه این دو مدل ، می بینیم که تمام ضرایب و خطاهای استاندارد یکسان هستند ، به جز خطای متغیر "Southeryes" ، که هر دو به بی نهایت واگرایی می کنند.

The problem becomes visible once we create a contingency table of executions >0 در مقابل جنوبی. در ایالت های جنوبی ، اعدام ها همیشه nonzero بودند ، به این معنی که داده ها برای متغیر جنوبی به طور شبه ای از هم جدا شده اند. هر زمان که متغیر جنوبی به عنوان یک مقدار "بله" را به خود اختصاص دهد ، بلافاصله دلالت می کند که تعداد اعدام های موجود در حالت داده شده در نمونه Nonzero است.

در عمل ، هنگامی که خطاهای استاندارد به طور غیرمعمول بزرگ هستند ، باید با تغییر تعداد تکرارها ، مشکل را پیدا کنید ، یا برخی از متغیرها را رها کنید و غیره. توجه داشته باشید که برخی از بسته های نرم افزاری - از جمله نرم افزاری که Maddala استفاده شده است - در این شرایط هیچ خطایی گزارش نمی دهندوادسایر بسته های نرم افزاری پیام های خطای Verbose را ارائه می دهند. در R ، این در SafeBinaryRegension موجود است. برآوردگرهای منظم (به جای ML) در R در BRGLM (GLMS کاهش یافته با تعصب) یا Bayesglm در ARM (تخمین بیزی) موجود است.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.