প্যানেল, ক্রস-সেকশনাল ও টাইম সিরিজ ডেটা: কার সাথে কার মিল-অমিল

মনে করুন, এমন একটি জরিপ চালানো হলো, যেখানে মানুষের আয়, বয়স, শিক্ষাগত যোগ্যতা, লিঙ্গ, ধর্ম ইত্যাদি অনেকগুলো চলক (variable) নিয়ে তথ্য সংগ্রহ করা হল। আরও ধরা যাক, কাজটি করা হলো অনেকগুলো আলাদা আলাদা সময়ের জন্য। এভাবে পাওয়া ডেটাকেই আমরা বলব প্যানেল ডেটা। অর্থাৎ, যেখানে অনেকগুলো আলাদা আলাদা চলক সম্পর্কে আলাদা আলাদা সময়ের বিচারে তথ্য নেওয়া হবে সেটাই হবে প্যানেল ডেটা (panel data)।

প্যানেল ডেটার একটি উদাহরণ দেখুন:
\begin{array}{|c|c|c|c|c|}
\hline
person & year & income& age & gender\\ \hline
1&2001& 24000&28 &male\\ \hline
1& 2002& 24500 & 29&male\\ \hline
1&2003 & 28000&30&male\\ \hline
2&2001& 34000&35 &male\\ \hline
2& 2002& 37500 &36&male\\ \hline
2&2003 & 40000&37&male\\ \hline
3&2001& 40000&40 &male\\ \hline
3& 2002& 45500 &41&male\\ \hline
3&2003 & 50000&42&male\\ \hline
\end{array}
প্যানেল ডেটার আরেক নাম লনজিটিউডিনাল (longitudinal) ডেটা।

এবার তাহলে ক্রস-সেকশনাল (cross-sectional) ও টাইম সিরিজ (time series) ডেটা বুঝে নেওয়া যাক।

একই চলকের তথ্য যখন বিভিন্ন সময়ে নেওয়া হবে তখন সেটাই হয়ে যাবে টাইম সিরিজ ডেটা।

টাইম সিরিজ ডেটা বা কালীন সারির একটি উদাহরণ:
\begin{array}{|c|c|}
\hline
year & income\\ \hline
2001& 24000\\ \hline
2002& 24500\\ \hline
2003& 25000\\ \hline
2004& 27000\\ \hline
2005& 28000\\ \hline
2006& 30000\\ \hline
2007& 33000\\ \hline
2008& 33400\\ \hline
2009& 35000\\ \hline
2010& 45000\\ \hline
2011& 46000\\ \hline
2012& 46800\\ \hline
2013& 50000\\ \hline
2014& 55000\\ \hline
2015& 67000\\ \hline
\end{array}
আবার একটি নির্দিষ্ট সময়ে যখন অনেকগুলো আলাদা চলকের তথ্য নেওয়া হবে, সেটা হয়ে যাবে ক্রস-সেকশনাল ডেটা। যেমন আমাদের প্রথম টেবিলে আমরা যদি প্রত্যেক person এর জন্য শুধু ২০০১ সালের ডেটা চিন্তা করি, তাহলে সেটা ক্রস-সেকশনাল ডেটা হবে। একইভাবে শুধু ২০০২ বা ২০০৩ চিন্তা করলেও একই কথা। কিন্তু একই সাথে একাধিক সময় বিবেচনায় নিলেই সেটা হয়ে যাবে প্যানেল ডেটা।

একটি সহজ বিষয়। একদম উপরের টেবিলটার কথা ভাবুন। এখান থেকে একটি কলাম আর সাথে বছর- এই দুটি চলক নিয়ে নতুন একটি ডেটাসেট তৈরি করলেই সেটা হবে টাইম সিরিজ ডেটা। তবে একাধিক ব্যক্তির জন্য চিন্তা করলে, মানে একই বছর একাধিক বার নিলে সেক্ষেত্রে দুটো আলাদা টাইম সিরিজ ডেটা হবে।

আবার ঐ টেবিলেই কলামের পরিবর্তে একটি সারি (row) নিয়ে নিলে (সাথে টেবিলের হেডার, যেখানে আছে চলকগুলোর নাম) পাওয়া যাবে ক্রস-সেকশনাল ডেটা। অনেকগুলো সারি নিলেও সমস্যা নেই, যদি না আলাদা আলাদা সময় চলে আসে।

ক্রস-সেকশনাল ডেটার উদাহরণ
\begin{array}{|c|c|c|c|c|c|c|}
\hline
person & year & income& age & gender&height (cm)&weight(kg)\\ \hline
1&2001& 24000&28 &male&172&76\\ \hline
2&2001& 34000&35 &male&171&81\\ \hline
3&2001& 40000&40 &male&165&65\\ \hline
\end{array}
ডেটার উপর ভিত্তি করেই আবার অ্যানালাইসিসির নাম হয়। যেমন প্যানেল ডেটা নিয়ে কাজ করলে বলা হয় প্যানেল অ্যানালাইসিস। টাইম সিরিজ ডেটা নিয়ে টাইম সিরিজ অ্যানালাইসি। আবার দুটোর সমন্বয় নিয়ে হতে পারে ক্রস-সেকশনাল স্টাডি। আবার উল্টোটাও হয়। স্টাডি কেমন হবে সেটার উপর নির্ভ করে সংগ্রহ করা হয় ডেটা। প্রতিটি স্টাডিরই কিছু সুবিধা-অসুবিধা আছে।

এ বিষয়ে বিস্তারিত জানতে নীচের বইগুলো সহায়ক হতে পারে:

১। Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Applied Longitudinal Analysis. Hoboken: John Wiley & Sons. p. 2.
২। Epidemiology for the Uninitiated by Coggon, Rose, and Barker, Chapter 8, "Case-control and cross-sectional studies", BMJ (British Medical Journal) Publishing, 1997
৩। Baltagi, Badi H. (2008). Econometric Analysis of Panel Data (Fourth ed.). Chichester: John Wiley & Sons.
৪। Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press. p. 2.

Saturday, August 4, 2018

প্যানেল, ক্রস-সেকশনাল ও টাইম সিরিজ ডেটা: কার সাথে কার মিল-অমিল

লেখকের পরিচয়

এ সপ্তাহের নিবন্ধ

R প্রোগ্রামিং: ফিবোনাচি সংখ্যার বিস্ময়কর জগৎ

Contact us

Best This Month

গণিত

আর্কাইভ

R প্রোগ্রামিং

সম্ভাবনা তত্ত্ব

ফেসবুকে বিশ্ব ডট কম

জীবনী