آموزش پرورش قصد دارد میزان سواد دانشآموزان وضعیت تحصیلی آنان و تعداد قبولشدگان در یکی از سنوات تحصیلی را بدانند و با استفاده از آنان تعدادی کتب کسر یا اضافه نمایند و یا برنامهریزی دیگری را تنظیم نمایند تا میزان سواد دانشآموزان ارتقا یابند.
بدینمنظور رئیس وقت آموزش و پرورش طبق بخشن نامههای مختلف به هر یک از واحدهای تالیف کتب درسی از آنان خواست که در مورد وضعیت کسانی که به آنها کتب تدریس می شود و نیز میزان مرغوبیت آنان تحقیق کنند.
روشهای جمعآوری دادهها:
بسیاری از گروههایی که روش درست تحقیق را نمیدانستند در این مهم باز ماندند و گروه آمار تحقیقات خود را آغاز کرد.
این گروه ابتدا جامعه را معرفی نمود.
((جامعه کل دانشآموزانی است که این کتاب را مطالعه می کنند.))
با توجه به کثرت جامعه و هزینه سر سام آور وقت گیر بودن نمی توانستند سر شماری کنند بس تصمیم دیگری گرفتند.
یکی از اعضا پیشنهاد کرد که از دانش آموزان تهران نمونه گیری کنند که مورد موافقت سر گروه واقع نشد سر رگروه دلایل خود را برای رد این در خواست چنین اعلام کرد :
1- دانش آموزان تهرانی به دلیل اینکه دارای امکانات فراوانی هستند وضعیت تحصیلی آنان بسیار بهتر ازمناطق محروم نقاط کشور است .
2- دانش آموزان به صورت تصادفی انتخاب نشده اند و ممکن است نمودار آنها با نموداری که می خواهند بدست آورند فرق داشته باشد .
سر گروه اعلام کرد که کل شهرهای ایران را روی کاغذ بنویسند و از این شهرها 100شهررا بصورت قرعه کشی و کاملا تصادفی انتخاب نمایند سپس اسم مدارس این شهرها را نیز به روی کاغذ آورند و100 دبیرستان را به صورت تصادفی انتخاب نمایندو سپس اسم هر یک از دانش آموزان آن مدارس را بنویسند و از آن صد دانش آموز انتخاب نمایند و نمرات آنها را مورد برسی قرار دهند و با ابنکه اسم کلیه دانش آموزانی که به آنها کتاب آمار به آنها تدریس شده است روی کاغذ نوشته شود و100دانش آموزانتخاب شوند اکثریت اعضا به روش دوم رای دادند .
اسم کلیدی دانش آموزان را روی کاغذ نوشته و 100دانش آموز را انتخاب نمودند نمرات این دانش آموزان به شرح زیر است .
19 15 18 17.75 16.5 14.5 15.25 20 16 19.75
18.75 19 20 14 20 19 10.25 11.75 13 20
18 20 15 16 18 18 19 20 20 20
18 19 19 19.75 20 17 19 14.5 14 12
20 20 20 18.5 20 19 10 12.75 10.25 18
18 19.5 20 20 17.75 17.75 17.5 14 15.5 14
17 15 16 14 19 10.25 12.5 14 16 17
13 12 10 11 19.25 17 19 20 20 18
20 20 18 20 20 18 18 20 20 20
20 20 20 20 20 20 20 20 20 20
ِ
این عددها یا به عبارتی دادها با استفاده از داده های از پیش تهیه شده بدست آمده است
سپس این گروه به مرور هدف پرداخت وضعیت دانش آموزان درس آمار و خود سازی و نیز تعداد دانش آموزانی که نمره بالای 15 آورده اند.
با وجود این مطلب دادهها را دسته بندی کردند و نوع داد ها را مشخص نمودند وضعیت دانش آموزان در متغیر کیفی و ترتیبی بود و تعداد دانش آموزانی که بالای 15 نمره اخذ نمودهاندو نیزکمی پیوسته است.
یکی از اعضا به این متغیر ها اعتراض کردند و مدعی شد که سر گروه اشتباه کرده است.
سر گروه در پاسخ به او چنین گفت وضعیت دانش آموزان قابل شمارش نسبت به متغیر ها کیفی است و نیز اگر داده ها را از کوچک به بزرگ مرتب کنیم نوعی ترتیب طبیعی بین داده ها بوجود می آید و آن این است که داده ها از کوچک به بزرگ مرتب شده اند در مورد تعداد دانش آموزانی که بالای 15نمره گرفته اند نیز باید بگوییم که تعداد دانش آموزان قابل شمارش است پس متغیر کمی استی و نیز اینکه این متغیرها پیوسته نیز است زیرا علاوه بر 17 18 17.25 17.5 17.75 را نیز در بر می گیرد .
با توجه به پاسخ سر گروه آن فرد قانع شد.
در ادامه سر گروه از یکی از اعضا خواست که داده ها را از کوچک به بزرگ مرتب کند و نیز این کار را کرد .
12.5 12 12 11.75 11 10.25 10.25 10.25 10 10
14.5 14 14 14 14 14 14 13 13 12.75
16 16 16 16 15.5 15.25 15 15 15 14.5
18 17.75 17/75 17.5 17.25 17 17 17 17 16.5
18 18 18 18 18 18 18 18 18 18
19 19 19 19 19 19 19 19 18.75 18.5
20 20 20 20 19.75 19.75 19.5 19.25 19 19
20 20 20 20 20 20 20 20 20 20
20 20 20 20 20 20 20 20 20 20
20 20 20 20 20 20 20 20 20 20
سپس فراوانی مطلق داده ها را بدیت آورید به عنوان مثال داده 20/34 بار تکرار شده است پس می شود :x2=34 و بقیه داده ها را این چنین بدست می آوریم.
f12= 2 f17.5=1 f11=1 f10.25=3 F10=2
F14.5=2 F14=6 F13= 2 f12.75=1 F12.5=1
F16.5=1 F16=4 F15.5=1 F15.25=1 F15=3
F17.75 2 F17.5=1 F17.25=1 F17=4
F19=10 F18.75=1 F18.5=1 F18=11
F20=34 F19.75=2 F19.5=1 F19.25=1
دسته بندی
اولین اقدامی که در مطالعه یک جامع بر اسا سداده ها انجام میدهیم آن است که ببینیم آیا می توان جامعه را به چند دسته جدا تفکیک کرد د رمطا لعه متغیرهای گسسته جدول فراوانی بدون دسته بندی کار آمد است ولی اگر متغیر پیوسته باشد این روش برای منظم کردن داده های عملی نیستلذا برای تنظیم داده ها در این قبیل موارد مراحل زیر را طی می کنیم .
دامنه تغیرات: اولین نکتهای که در این مرحله مدنظر قرار میگیرد، آن است که ببینیم آیا متغیر در فاصله زیادی تغییر میکند یا درفاصله کمی قرار میگیرد.
طول بازهای را که متغیر در آن تغییر میکند، دامنه تغییرات میگوییم.برای بیان روشنتر، فرض کنید: کوچکتریین داده = a و بزرگترین داده = b در این صورت تفاضل a از b یعنی b-a را دامنع تغییرات میگویند و با علامت R نشان میدهیم.
R = b – a بزرگی دامنهی تغییرات نشاندهندهی تفاوت زیاد در جامعه است.
هرچقدر این دامنه کمتر باشد، افراد جامعه از لحاظ این متغیر به هم نزدیکترند.
اگر دامنهی تغییرات صفر باشد، تمام افراد با هم برابر و یکسانند.
دامنه تغییرات را بدست می آوریم R = b - a R = 20 – 10 = 10 سپس با فرمول که در آنR دامنه تغییرات C طول دسته و k تعداد دسته است.
جدول فراوانی را می خوانیم که به 5 دسته تقسیم کنیم در نتیجه داریم: پس از اینکه طول دستهها را بدست آوردیم، از کران پایین به اندازه طول دسته انتخاب میکنیم و تا کران بالا ادامه میدهیم که در نتیجهی آن طول دستههای ما میشود.
10-12, 12-14, 14-16, 16-18, 18-20 مرکز دسته برای دستهی [ai , bi ]، ai را کران پایین و bi را کران بالا و xi را مرکز آن دسته می نامیم و از رابطه زیر بدست می آوریم: به همین ترتیب مرکز 5دسته بالا را بدست میآوریم.
داریم: فراوانی مطلق: پس از بدست آوردن مرکز دسته ها فراوانی مطلق هر دسته را نیز بدست می آوریم ملاحظه می شود که %7 داده ها در دستهی اولو%6داده ها در دستهای دوم %13 درصداز داده ها را در دسته چهارم و%61 از داده ها در دستهی پنجم قرار دارند.
فراوانی نسبی: اگر f1 فراوانی دسته ای باشد و تعداد داده ها n باشد کسر را فراوانی نسبی داده می گوییم فراوانی نسبی هر یک از دادهها را بدست میآوریم پس از آن درصد فراوانی نسبی را بدست میآریم.
اگر هر کدام را به 100 ضرب کنیم، درصد فراوانی نسبی به دست میآید.
داریم: ملاحظه می شود که درصد فراوانی نسبی با درصد فراوانی مطلق برابر است فراوانی تجمعی : فراوانی تجمعی هر دسته برابر است تعداد اشیایی که مقدار آنها از کران آن دسته کمتر است.
فراوانی تجمعی هر دسته را بدست می آوریم: جدول فراوانی ها طی مراحل فوق بدست می آوریم: نمودارها و تحلیل داده ها : نمودار میلهای نمودار مستطیلی نمودار چندبر فراوانی نمودار دایرهای شاخص های مرکز: 1- مد: دادهای است که بیشترین با ر تکرارشده است در مراحل قبلی فراوانی هر داده را بدست می آوریم.
حال با استفاده از آنها می خواهیم که مد را پیدا کنیم مد دادهی20است که به میزان 34 بار تکرار شده است.
2- میانه: پس از مرتب کردن داده ها مقداری را که تعداد داده ها بعد از آن با مقدار داده ها قبل از آن برابر استمیانه می نامیم میانه را از فرمول بدست می آوریم که در آن Md میانه و N تعداد داده هاست.
سر گروه با بیان این مطلب از یکی از همکاران خانم خواست که میانه را بدست آور وی نیز این کار را نمود پس نوشت که جواب 50.5 آمد خانم همکار دو یا سه چهار با میانه را بدست آورد و در هر با جواب 50.5 می آمد سپس او که می دانست داده ای به نام 50.5 ندارد اعلام داشت که از به دست آوردن میانه عاجز استسر گروه با تشویق به وی گفتکه عملیات وی کاملا صحیح بوده و جواب بدست آمده کاملا صحیح است.
این گفته سر گروهموجب تعجب اعضاء گروه شد.
خانم همکار از سر گروه پرسید که این امر چگونه ممکن استما داده ای به شماره 50.5 نداریم سر گروه در پاسخ وی گفت: ((اگر تعداد داده های ما فرد باشد دادهای که بدست می آید به صورت یک عدد طبیعی مضرب یک است و آن داده میانه است اگر داده ها زوج باشد جواب معادله n/5 می آید که n یک عدد طبیعی است برای بدست آوردنمیانه در این موارد میانگین رو دادهای که در وسط است میانه می باشد پس میالنگین دو دادهای x50 و x51 میانه است.)) با توجه بک گفته سر گروه خانم همکار دو باره میانه را بدست آورد که در نتیجه آن عدد18.25 میانه است.
نمودار جعبه ای با کفتن این اسم همهاعضاء گروه به فکر جعبهمیوه افتادنند یکی از اعضاءاز سر گروه پرسید که با جعبه سیب چه نموداری می توان درست کرد ؟سر گروه خندهای کرد در پاسخ گفت: از نمودارهایی که تا کنون خواندهایم، هرکدام به طریقی دادهها را نمایش میدادند.
فکر میکنید کدام نمودار بهتر از بقیه پراکندگی دادهها را نشان میدهد؟
چارک میانه نیمه اول داده را چارک اول (Q1) و میانه نیمه دوم داده ها را چارک سوم (Q3) می نامیم.
در ضمن چارک دوم همان میانه است.
سرگروه در ادامه افزود ((نمودار جعبهای نمودار تصویریاست که داده ها را بر اساس پنج مقدار نمایش می دهد این مقادیر عبارتند از 1-کوچکترین داده 2- چارک اول 3-میانه 4- چارک سوم 5- بزکترین داده...
سپس برای درک بیشتر اعضا نمودار ساده رسم کردیم.
میانگین برای محاسبه میانگین همه داده ها را باید جمع کرد ه بر تعداد کل داده ها تقسیم می کنیم یعنی: قضیه: اگر X میانگین X1…….Xn باشد آن گاه مجموع اختلافات داده ها از میانگین برابر است با صفر اثبات زیرامی دانیم مجموع مقادیربرابر حاصل ضرب میانگین در تعداد آن ها است یعنی: در برخی از محاسبات ممکن است اعداد بسیار بزرگ باشد جمع کردن این اعداد و تقسیم آن ها همراه با خطاهایی خواهد بود شاید بگویید در عصر رایانه ها بزرگی اعداد مشکلی نخواهد بود.
ولی به هر حال این اعداد را باید به طریقی وارد کنیم که در این مرحله بزرگی انها اشکالاتی را ایجاد خواهد کرد.اگر بتوانیم تدبیری بیندیشیم تااز اعدادکوچکتر استفاده کنیم این مشکل را دور زده ایم.قضیه زیر راه حل مناسب این مسئله را ارائه می کند.
مقایسه میانگین و میانه: میانگین شاخص خوبی برای نشان دادن مرکزیت داده هاست در بعضی از مسائل این شاخص نمی تواند مؤثر باشد.مثلا انتظار میرود در یک کلاس تمامی دانش اموزان نمره خوبی بگیرند.
اگر نمرات خوب باشد مسلما میانگین هم بالا خواهد بود ولی آیا بالا بودن میانگین نمرات نشان دهنده وضع خوب کلاس است .ممکن است تعداد کمی نمره20گرفته باشند وتعداد زیادی نمره 10 یا 12.
وضع این کلاس رضایت بخش نخواهد بود برای آنکه وضع کلاس را بتوانیم خوب ارزیابی کنیم حداقل نصف کلاس باید نمره خوبی آورده باشند.
آن چه نمره ای است که نمره نصف دانش آموزان کلاس از آن بیش تر است ؟
_اگر میانه خیلی از میانگین کو چکتر باشد تعبیر آن است ؟
_اگر میانه خیلی بزرگ تر از میانگین باشد تعبیر آن است؟
میانگین وزن دار سرگروه با گفتن این عنون موجب خنده ی اعضای گروه شد ویکی از جایش بلند شد وگفت میانگین وزنی علی آقا 250 کیلو است وهمه خندیدند .
سر گروه اعضا را دعوت به سکوت کرد وگفت : برای محاسبه میانگین وزنی در حالت کلی فرض کنید داده های Xn… ,X1 به ترتیب دارای ضرایب Wn… ,W1 این اطلاعات را برای سادگی می توانیم در جدول زیر خلاصه کنیم : در این صورت میانگین داده های بالا با احتساب ضرایب مربوطه به صورت زیر محاسبه می شود: در مواردی که ما با میانگین وزن دار مواجه می شویم محاسبه میانگین در یک جدول فراوانی است .
دیدیم که در یک جدول فراوانی قرار شد تمام افرادی که در یک دسته قرار دارند برابر مرکز دسته فرض کنیم.
پس مرکز دسته به اندازه فراوانی آن دسته تکرار می شود ، واین مانند آن است که ما به مرکز دسته وزنی برابر فراوانی آن دسته داده باشیم ، پس اگر بخاهیم میانگین را حساب کنیم باید مرکز دسته ها را در فراوانی های نظیر ، ضرب وبا هم جمع کرده وپس از آن بر مجموع فراوانی ها (که همان تعداد داده هاست ) تقسیم کنیم .
این مفهوم میانگین برای محاسبات از روی جدول فراوانی مناسب تر است شاخص های پراکندگی دامنه تغییرات انحراف میانگین واریانس انحراف معیار ضریب تغییرات دامنه تغییرات : در فصول قبل در این مورد بحث شد و برابر است با R=b-a دامنه تغییرات باشد 20-10=10 R= واریانس : دامنه تغییرات شاخص مناسبی است .
اما در تصمیم گیری های کلان از ارزش آماری زیادی برخوردار نیست .
زیرا ما به شاخص هایی نیاز داریم که هم پراکندگی داده ها وهم فراوانی آنها را مد نظر قرار دهند.
دیدیم که پراکندگی یعنی این که داده ها از مرکز خود چه قدر دور هستند ، پس یک راه ابتدایی ممکن است این طور به نظر برسد که تک تک مقادیر را از میانگین کم کنیم .
این تفاضل ها را انحراف از میانگین می نامیم وسپس مجموعه مقادیر حاصل را بدست آوریم ، یعنی مجموع مقادیر X1-X,X2-X,…, Xn-X را حساب کنیم .
قبلا دیده ایم که مجموع مقادیر بالا برابر صفر است .
لذا برای هر نوع داده ای اعم از آن که داده ها به میانگین نزدیک باشند ویا از آن دور باشند ، آن چه که از این روش بدست می آید برابر صفر است .
پس معیار مذکور نمی تواند معیار مفیدی باشد .
البته علت آن که این مجموع برابر صفر شد به این خاطر است که برخی از داده ها از میانگین بزرکتر وبرخی دیگر کوچکترند .
در نتیجه مقادیر مثبت ومنفی حاصل می شوند که مجموع آنها یکدیگر را خنثی می کنند .
برای جلوگیری از علامت های مثبت ومنفی یکی از راهها استفاده از قدر مطلق است .
یعنی از مقادیر X1-X,…, Xn-X استفاده کنیم .
این مقادیر می تواند معیاری برای پراکندگی ارائه کند ولی معمولا کار کردن با قدر مطلق کار آسانی نیست و از این رو از توان دوم بالا استفاده می کنیم یعنی مجموع مجذورات فاصله از میانگین را در نظر می گیریم .
پس یک معیار پراکندگی ممکن است به صورت زیر باشد: (X1-X)+…+(Xn-X) ملاحظه می شود که اگر داده ها برابر باشند مقدار بالا برابر صفر است وبالعکس اگر مقدار بالا برابر صفر باشد داده ها برابر بوده ودر نتیجه هیچ تفاوتی در بین آنها نیست .
اما اشکالی که دستور بالا دارد آن است که اگر تعداد دهده دیگر اضافه کنیم به مجموع بالا مقادیر مثبت دیگری اضافه خواهد شد ولذا این مجموع بزرگتر خواهد شد .
حال آیا درست است که بگوییم با اضافه شدن داده ها پراکندگی بیشتر می شود ؟
مسلما پاسخ منفی است ، چون پراکندگی چیزی است که به اصل جامعه مربوط است واز این نوع محاسبات نباید در مقدار آنها ناثیر بگذارد .
پس برای آنکه تاثیر تعداد داده ها را از بین ببریم مجموع مذکور را بر تعداد آنها تقسیم می کنیم واز اینجا به معیار زیر می رسیم.
O از حروف کوچک یونانی است وسیگما خوانده می شود.
حروف بزرگ آن E است.
برای محاسبهی واریانس ابتدا میانگین داده ها را بدست می آوریم سپس انحراف از میانگین را حساب می کنیم و مجددا آن را پیدا می کنیم سپس میانگین مجذور انحراف از میانگین را بدست می آوریم .
واحد واریانس از نوع مجذور واحد متغییر است .
محاسبه واریانس معیار سپس هرکدام را به توان 2 میرسانیم و آنها را با عنوان مجذورانحرافات معیار میخوانیم.
سپس آنها را با هم جمع میکنیم و بر 100 تقسیم میکنیم.
انحراف معیار این که واحد واریانس از نوع مجذور واحد متغیر است می تواند مشکلاتی را در پی داشته باشد برای اینکه این اختلاف نظر ها را از بین ننریم سعی می کنیم که تفاوت عمده در واحد واریانس وواحد میانگین را با جذر گرفتن از واریانس از بین ببریم .
جذر واریانس را انحراف معیار گویند وآن را با نماد O نشان می دهند .
واحد انحراف معیار همان واحد متغیر است .
از واریانس جذر میگیریم.
حاصل انحرافات معیار است که با نمایش میدهیم.
ضریب تغییرات : اگر بخاطر داشته باشید در جدول فراوانی برای آنکه تاثیر اندازه نمونه را از بین ببریم به محاسبه درصد فراوانی نسبی پرداختیم .
در اینجا نیز برای از بین بردن واحد اندازه گیری از معیار ضریب تغییرات استفاده می کنیم .
ضریب تغییرات که با نماد CV نشان می دهیم عبارت است از خارج قسمت انحراف معیار بر میانگین.
تذکر : از آنجا که ضریب تغییرات معیاری برای میزان پراکندگی است باید مثبت باشد .
چون پراکندگی منفی معنی ندارد .
پس لازم است X که در مخرج کسر بالا آمده است مثبت باشد .
اطمینان از مثبت بودن X ضریب اطمینان را فقط برای داده های مثبت تعریف می کند.
تذکر: هر چه قدر داده ها بزرگتر باشد زمانی پراکندگی در آنها محسوس است که تفاوت داده ها بیشتر باشد اگر ما انحراف معیار را بر X تقسیم کنیم میزان پراکندگی زا برای یک واحد از میانگین حساب کردیم.
وبه این ترتیب تاثیر بزرگی داده ها را از بین برده ایم .
پس می توان گفت « ضریب تغییرات عبارت است از میزان پراکندگی به ازای یک واحد از میانگین » اگر انحراف معیار را تقسیم بر میانگین کنیم، ضریب تغییرات به دست میآید.
19151817.7516.514.515.25201619.7518.75192014201910.2511.7513201820151618181920202018191919.7520171914.5141220202018.520191012.7510.25181819.5202017.7517.7517.51415.514171516141910.2512.51416171312101119.2517192020182020182020181820202020202020202020202020 12.5121211.751110.2510.2510.25101014.5141414141414131312.751616161615.515.2515151514.51817.7517/7517.517.251717171716.518181818181818181818191919191919191918.7518.52020202019.7519.7519.519.251919202020202020202020202020202020202020202020202020202020202020 f12= 2f17.5=1f11=1f10.25=3F10=2F14.5=2F14=6F13= 2f12.75=1F12.5=1F16.5=1F16=4F15.5=1F15.25=1F15=3F17.75 2F17.5=1F17.25=1F17=4F19=10F18.75=1F18.5=1F18=11F20=34F19.75=2F19.5=1F19.25=1 مهدی = F5مهدی = F4مهدی = F3مهدی = F2مهدی = F1F5=61F4=13F3=13F2= 6F1=7 فراوانی تجمعیدرصد فراوانی نسبیفروانی نسبیفراوانی مطلقمرکز دستهطول دسته77%07/071112-10126%06/061314-122613%13/0131516-143913%13/0131718-1610061%61/0611920-18100%1100جمع x1 x2 .....
xnدادههاw1 w2 .....
wnضریب (دادهها) میانگین وزنیمیانگین وزنی 7.25-7.25-7.25-7.5-7.5-5-5.5-5.5-5.75-6.5-3.5-3.5-4.5-4.5-4.75-3-3.5-3.5-3.5-3.5-2.25-2.5-2.5-2.5-3-1.5-1.5-1.5-1.5-2-0.5-0.5-0.5-0.5-1-0.50.250.2500.250.50.50.50.50.50.50.50.50.50.51.51.51.51.2511.51.51.51.51.52.2521.751.51.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.52.5