Wednesday, July 18, 2018

জানার মাঝে অজানারে করেছি সন্ধান

Advertisements

[লিখেছেনঃ ড. রহমতুল্লাহ ইমন] 


পরিসংখ্যানের সঠিক সংজ্ঞা নিয়ে নানা মুনির নানা মত রয়েছে। সন্দেহ নেই সবচে জনপ্রিয়তা পেয়েছে এটি উপাত্ত সংগ্রহ আর উপস্থাপনের বিষয় হিসেবে। তবে পরিসংখ্যানের এমন সংজ্ঞা কিন্তু খুবই সেকেলে। আজ থেকে হাজার পাঁচেক বছর আগেও কিন্তু মানুষ উপাত্ত সংগ্রহ করেছে, উপস্থাপন করেছে। অথচ আমরা বলছি পরিসংখ্যানের উৎপত্তি উনিশ শতকের শেষে। কী এমন হয়েছিল সে সময় যাতে আমরা তাকে পরিসংখ্যানের উদ্ভবের কাল বলতে পারি?

আসলে সে সময়ে সম্ভাবনা তত্ত্বকে কাজে লাগিয়ে বর্তমানের তথ্য উপাত্তের ওপর ভিত্তি করে ভবিষ্যৎ সম্পর্কে পূর্বাভাস দেয়া শুরু হয়েছিল। চেরনভ ও মোজেস যেমনটা ১৯৫৯ সালে বলেছেন,
 Statistics is the science of prediction and decision making in the face of uncertainty। 

আসলেও তাই। অনিশ্চয়তার মুখে সিদ্ধান্ত নিতে পারার ক্ষমতা যার আছে সে যে কালের বিচারে সবার থেকে এগিয়ে যাবে সেটাই তো স্বাভাবিক। কিন্তু কীভাবে আমরা অনিশ্চয়তার মুখে সিদ্ধান্ত নেই?

এ জগতে কোন কিছুই নিখুঁত নয়, আবার কোন কিছুই আমরা পুরোপুরি জানতেও পারি না। তারপরেও সত্য সন্ধানের প্রচেষ্টা তো থেমে থাকেনি কখনো। অজানাকে জানার, অচেনাকে চেনার প্রচেষ্টাই হল বিজ্ঞান। পরিসংখ্যানও বিজ্ঞান একারণেই। আমরাও অজানাকে জানার চেষ্টা করে থাকি। আমাদের অজানা হল সমগ্রকের (population) কোন বিশেষ বৈশিষ্ট যাকে আমরা পরামিতি (parameter) বলে থাকি। আর তা আমরা জানার চেষ্টা করে থাকি সংগৃহীত তথ্য উপাত্তের ভিত্তিতে।

তাহলে কী দাঁড়াল অবশেষে? পরিসংখ্যান হল জানার মাধ্যমে অজানাকে সন্ধান করার বিজ্ঞান। কী অবাক করা কথা? বিশ্বকবি রবীন্দ্রনাথ ঠাকুর ঠিক এই কথাটিই বলেছিলেন শতবর্ষ আগে। ১৯২৪ সালে তাঁর লেখা গান,

আকাশভরা সূর্য-তারা, বিশ্বভরা প্রাণ,
তাহারি মাঝখানে আমি পেয়েছি মোর স্থান,
বিস্ময়ে তাই জাগে আমার গান॥
এই গানটির মাঝেই তিনি উল্লেখ করেছেন সেই অমোঘ বাক্যটি

কান পেতেছি, চোখ মেলেছি, ধরার বুকে প্রাণ ঢেলেছি,
জানার মাঝে অজানারে করেছি সন্ধান,
বিস্ময়ে তাই জাগে আমার গান॥

আমার ক্ষুদ্র জ্ঞানে পরিসংখ্যানের এর চাইতে ব্যাপক ও নিখুঁত সংজ্ঞা আর কেউ কখনো দেননি।
ছোট্ট একটা উদাহরণ দেয়া যাক। আমার জানার ইচ্ছে হল রাজশাহী বিশ্ববিদ্যালয়ের ছাত্ররা সপ্তাহে গড়ে কতক্ষণ লাইব্রেরী ব্যবহার করে। এর একটি প্রকৃত মান নিশ্চয়ই আছে কিন্তু আমার সেটা জানা নেই। আমি দৈবচয়নের (random sampling) মাধ্যমে ১০ জন ছাত্রছাত্রীকে নির্বাচন করলাম। এবার তাদের জিজ্ঞাসা করলাম সপ্তাহে তারা কতক্ষণ লাইব্রেরি করে? তাদের কাছ থেকে পাওয়া উত্তরগুলো হল ঘন্টার হিসেবে ০, ১, ০, ৪, ০, ০, ৬, ৮, ৩, ০।

এই উপাত্তগুলো এখন আমার জানা। আর এই জানা মানগুলো দিয়েই আমি অজানা কে জানার চেষ্টা করব। যদিও আমি জানি না এর মান কত তবুও যুক্তির খাতিরে ধরে নিলাম তা ২। তাহলে আমি কি আমার জানা তথ্যগুলোকে এভাবে প্রকাশ করতে পারি না?
০ = ২ – ২
১ = ২ – ১
০ = ২ – ২
৪ = ২ + ২
০ = ২ – ২
০ = ২ – ২
৬ = ২ + ৪
৮ = ২ + ৬
৩ = ২ + ১
০ = ২ – ২

অর্থাৎ
জানা (উপাত্ত) = অজানা (প্রকৃত মান) + বিচ্যুতি

এখানে প্রকৃত অজানা মান ২, আর তা থেকে উপাত্তগুলো কখনো -২, -১, -২, +২, -২, -২, +৪, +৬, +১, -২ এভাবে বিচ্যুত হয়ে আছে। এখান থেকে আরও বোঝা যাচ্ছে যে বিচ্যুতি (error) যত কম হবে ততই উপাত্ত প্রকৃত অজানা মানের কাছকাছি পৌঁছাবে। সবচে ভাল হত যদি সবগুলো বিচ্যুতিই শূন্য হত যাতে প্রতিটি উপাত্তই হুবহু প্রকৃত মানের সমান হত। কিন্তু বৈচিত্রই তো এ জগতের প্রধান বৈশিষ্ট। স্রষ্টা কোন কিছুই তো একদম এক ছাঁচে সৃষ্টি করেননি। আমরা বড়জোর যা পারি তা হল এই বিচ্যুতিকে যথাসম্ভব কমিয়ে আনতে।

আমরা লিখতে পারি
বিচ্যুতি = উপাত্ত - প্রকৃত অজানা মান

আমরা এমনভাবে উপাত্ত থেকে প্রকৃত অজানা মান বের করব যাতে বিচ্যুতির বর্গ সমষ্টি (sum of square errors) হয় সর্বনিম্ন।

আমরা এখানে কেন বিচ্যুতির বর্গ নিলাম? গণিতের কলনবিদ্যার (calculus) অন্তরীকরণ (differentiation) থেকে আমরা জানি যে কোন ফাংশন ভা অপেক্ষককে (function) তার পরামিতির সাপেক্ষে অন্তরীকৃত করার পর সেখান থেকে পরামিতির এমন মান পাওয়া যাবে যা ঐ অপেক্ষককের বৃহত্তম বা ক্ষুদ্রতম মান নির্ণয় করতে পারবে। বিচ্যুতির চিহ্নমুক্ত সমষ্টি (sum of absolute errors) পরামিতি থেকে উপাত্তগুলোর দূরত্ব নির্দেশ করে বটে কিন্তু এই অপেক্ষকটিকে পরামিতির সাপেক্ষে অন্তরীকরণ করা যায় না।

তাই গাণিতিক সুবিধার কারণেই আমরা বিচ্যুতির বর্গসমষ্টিকে বেছে নিয়েছি। এর অর্থ কিন্তু আবার এও নয় যে বিচ্যুতির চিহ্নমুক্ত সমষ্টির সর্বনিম্ন মান বের করা যায় না। এটা যায়, তবে অন্তরীকরণের মাধ্যমে নয়- তুলনামূলকভাবে অনেক বেশি জটিল পদ্ধতির মাধ্যমে। আর সেকারণেই এটা জনপ্রিয় হয়ে উঠতে পারেনি।

অপেক্ষকটিকে অন্তরীকরণের পর এখান থেকে যে সমাধান আসে তা খুবই চিত্তাকর্ষক। পরামিতির নিরূপকটি (estimate) আসলে নমুনা গড় (sample mean)। আমরা আগেই বলেছি যে পরামিতির নিরূপকটি ঐ অপেক্ষককের বৃহত্তম বা ক্ষুদ্রতম মান নির্ণয় করতে পারে। নমুনা গড় আসলে কী দেবে সেটা পরীক্ষার জন্য আমরা অপেক্ষকটিকে তার পরামিতির সাপেক্ষে আরেক দফা অন্তরীকৃত করব। শাস্ত্র বলছে অপেক্ষকটির দ্বিতীয় দফা অন্তরীকৃত মান ধণাত্মক হলে অপেক্ষকটি ক্ষুদ্রতম মান দেবে আর অন্তরীকৃত মান ঋণাত্মক হলে অপেক্ষকটির মান হবে বৃহত্তম।

বিচ্যুতির বর্গসমষ্টিকে দ্বিতীয় দফা অন্তরীকরণ করার পর যেহেতু এর মান পাওয়া যায় ২, সেহেতু একথা নির্দ্বিধায় বলা চলে যে নমুনা গড় জানা অজানার পার্থক্যের দূরত্বকে সবচে কমিয়ে আনবে। আর সে কারণেই নমুনা গড় হবে প্রকৃত মানের সবচাইতে গ্রহণযোগ্য অনুমিত মান।
এই উদাহরণের উপাত্ত থেকে পাওয়া নমুনা গড় হল ২.২ ঘন্টা। তাই ছাত্রছাত্রীদের লাইব্রেরীতে কাটানোর প্রকৃত সময় যদি সত্যি সপ্তাহে ২ ঘন্টা হয় তবে অনুমিত মান তার বেশ কাছাকাছি। তবে এই কাছাকাছি ব্যাপারটা তাৎপর্যপূর্ণ কিনা সেটাও পরীক্ষা করার পদ্ধতি আছে। আর এক্ষেত্রে নমুনা সংখ্যা যেহেতু কম আমরা বেছে নেব স্টুডেন্টের t নিবেশনকেই।

আর এভাবেই বারে বারে জানার মাঝে অজানাকে খুঁজে নেয় পরিসংখ্যান।
জয়তু রবীন্দ্রনাথ!

লেখক: অধ্যাপক, ম্যাথেম্যাটিক্যাল সায়েন্সেস,  Ball State University। 

Stat Mania

লেখকের পরিচয়