Saturday, August 4, 2018

প্যানেল, ক্রস-সেকশনাল ও টাইম সিরিজ ডেটা: কার সাথে কার মিল-অমিল

Advertisements

মনে করুন, এমন একটি জরিপ চালানো হলো, যেখানে মানুষের আয়, বয়স, শিক্ষাগত যোগ্যতা, লিঙ্গ, ধর্ম ইত্যাদি অনেকগুলো চলক (variable) নিয়ে তথ্য সংগ্রহ করা হল। আরও ধরা যাক, কাজটি করা হলো অনেকগুলো আলাদা আলাদা সময়ের জন্য। এভাবে পাওয়া ডেটাকেই আমরা বলব প্যানেল ডেটা। অর্থাৎ, যেখানে অনেকগুলো আলাদা আলাদা চলক সম্পর্কে আলাদা আলাদা সময়ের বিচারে তথ্য নেওয়া হবে সেটাই হবে প্যানেল ডেটা (panel data)।

প্যানেল ডেটার একটি উদাহরণ দেখুন:
\begin{array}{|c|c|c|c|c|}
\hline
person & year & income& age & gender\\ \hline
1&2001& 24000&28 &male\\ \hline
1& 2002& 24500 & 29&male\\ \hline
1&2003 & 28000&30&male\\ \hline
2&2001& 34000&35 &male\\ \hline
2& 2002& 37500 &36&male\\ \hline
2&2003 & 40000&37&male\\ \hline
3&2001& 40000&40 &male\\ \hline
3& 2002& 45500 &41&male\\ \hline
3&2003 & 50000&42&male\\ \hline
\end{array}
প্যানেল ডেটার আরেক নাম লনজিটিউডিনাল (longitudinal) ডেটা।


এবার তাহলে ক্রস-সেকশনাল (cross-sectional) ও টাইম সিরিজ (time series) ডেটা বুঝে নেওয়া যাক।

একই চলকের তথ্য যখন বিভিন্ন সময়ে নেওয়া হবে তখন সেটাই হয়ে যাবে টাইম সিরিজ ডেটা। 

টাইম সিরিজ ডেটা বা কালীন সারির একটি উদাহরণ:
\begin{array}{|c|c|}
\hline
year & income\\ \hline
2001& 24000\\ \hline
2002& 24500\\ \hline
2003& 25000\\ \hline
2004& 27000\\ \hline
2005& 28000\\ \hline
2006& 30000\\ \hline
2007& 33000\\ \hline
2008& 33400\\ \hline
2009& 35000\\ \hline
2010& 45000\\ \hline
2011& 46000\\ \hline
2012& 46800\\ \hline
2013& 50000\\ \hline
2014& 55000\\ \hline
2015& 67000\\ \hline
\end{array}
আবার একটি নির্দিষ্ট সময়ে যখন অনেকগুলো আলাদা চলকের তথ্য নেওয়া হবে, সেটা হয়ে যাবে ক্রস-সেকশনাল ডেটা। যেমন আমাদের প্রথম টেবিলে আমরা যদি প্রত্যেক person এর জন্য শুধু ২০০১ সালের ডেটা চিন্তা করি, তাহলে সেটা ক্রস-সেকশনাল ডেটা হবে। একইভাবে শুধু ২০০২ বা ২০০৩ চিন্তা করলেও একই কথা। কিন্তু একই সাথে একাধিক সময় বিবেচনায় নিলেই সেটা হয়ে যাবে প্যানেল ডেটা।

একটি সহজ বিষয়। একদম উপরের টেবিলটার কথা ভাবুন। এখান থেকে একটি কলাম আর সাথে বছর- এই দুটি চলক নিয়ে নতুন একটি ডেটাসেট তৈরি করলেই সেটা হবে টাইম সিরিজ ডেটা। তবে একাধিক ব্যক্তির জন্য চিন্তা করলে, মানে একই বছর একাধিক বার নিলে সেক্ষেত্রে দুটো আলাদা টাইম সিরিজ ডেটা হবে।

আবার ঐ টেবিলেই কলামের পরিবর্তে একটি সারি (row) নিয়ে নিলে (সাথে টেবিলের হেডার, যেখানে আছে চলকগুলোর নাম) পাওয়া যাবে ক্রস-সেকশনাল ডেটা। অনেকগুলো সারি নিলেও সমস্যা নেই, যদি না আলাদা আলাদা সময় চলে আসে।

ক্রস-সেকশনাল ডেটার উদাহরণ
\begin{array}{|c|c|c|c|c|c|c|}
\hline
person & year & income& age & gender&height (cm)&weight(kg)\\ \hline
1&2001& 24000&28 &male&172&76\\ \hline
2&2001& 34000&35 &male&171&81\\ \hline
3&2001& 40000&40 &male&165&65\\ \hline
\end{array}
ডেটার উপর ভিত্তি করেই আবার অ্যানালাইসিসির নাম হয়। যেমন প্যানেল ডেটা নিয়ে কাজ করলে বলা হয় প্যানেল অ্যানালাইসিস। টাইম সিরিজ ডেটা নিয়ে টাইম সিরিজ অ্যানালাইসি। আবার দুটোর সমন্বয় নিয়ে হতে পারে ক্রস-সেকশনাল স্টাডি। আবার উল্টোটাও হয়। স্টাডি কেমন হবে সেটার উপর নির্ভ করে সংগ্রহ করা হয় ডেটা। প্রতিটি স্টাডিরই কিছু সুবিধা-অসুবিধা আছে।

এ বিষয়ে বিস্তারিত জানতে নীচের বইগুলো সহায়ক হতে পারে:

১। Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Applied Longitudinal Analysis. Hoboken: John Wiley & Sons. p. 2.
২। Epidemiology for the Uninitiated by Coggon, Rose, and Barker, Chapter 8, "Case-control and cross-sectional studies", BMJ (British Medical Journal) Publishing, 1997
৩। Baltagi, Badi H. (2008). Econometric Analysis of Panel Data (Fourth ed.). Chichester: John Wiley & Sons.
৪। Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press. p. 2.

Abdullah Adil Mahmud

লেখকের পরিচয়

আব্দুল্যাহ আদিল মাহমুদ। লেখক ও ডেটা অ্যানালিস্ট। পড়াশোনা ঢাকা বিশ্ববিদ্যালয়ের পরিসংখ্যান বিভাগে। সম্পাদনা করছেন Stat Mania বিশ্ব ডট কম। পাশাপাশি লিখছেন বিজ্ঞানচিন্তা, ব্যাপন পাই জিরো টু ইনফিনিটিসহ বিভিন্ন ম্যাগাজিনে। প্রকাশিত অনূদিত বইঃ অ্যা ব্রিফার হিস্ট্রি অব টাইম । লেখকের এই সাইটের সব লেখা এখানে ফেসবুক, গুগল প্লাস। পারসোনাল ওয়েবসাইট