পরিসংখ্যান আধুনিক কালে যে কোন গবেষণার একটি গুরুত্বপুর্ন মাধ্যম। যে কোন তথ্য বা উপাত্তের সত্যতা যাচাই করা, কোন সিস্টেমের সার্বিক পরিস্থিতি সম্পর্কে ধারনা পাওয়া, কোন এলাকা বা অঞ্চলের থেকে শুরু করে ব্যাক্তিগত পর্যায়ে মানুষের অভ্যাস, কাজ কর্ম, ভাষা, পছন্দ অপছন্দ ইত্যাদি নানান ধরনের তথ্য পাওয়া সম্ভব পরিসংখ্যান থেকে। উন্নত দেশগুলতে যে কোন ধরনের বড় প্রজেক্টের আগে বিভিন্ন পরিসংখ্যানের মাধ্যমে সেই প্রজেক্টের সফল হবার সম্ভাবনা যাচাই বাছাই করে নেয়া হয়।
পরিসংখ্যান থেকে আমরা কি ধরনের তথ্য পেতে পারি? ধরুন, নিউইয়র্কে আপনি চাচ্ছেন নতুন একটা রেস্ট্রুরেন্ট খুলবেন, যেখানে রকমারি "ইংলিশ ফুড" পাওয়া যাবে। কিন্ত আপনার বিজনেস পার্টনার চাচ্ছে "চাইনিজ ফুড" এর রেস্টুরেন্ট দিতে। তাই সিদ্ধান্ত নিতে আপনি আপনার এক পরিসংখ্যানবিদ বন্ধুর সরনাপন্ন হলেন। সে কিছুক্ষন তার ল্যাপটপে ঘাঁটাঘাঁটি করে আপনাকে পরামর্শ দিল "চাইনিজ ফুড" এর রেস্টুরেন্ট দিতে। কারন জানতে চাইলে সে আপনাকে বিজ্ঞের মত উত্তর দিল, "People are more likely to eat Chinese food than English Food."
এবার দেখি, কেন সে আপনাকে এই পরামর্শ দিয়েছে। আমার কাছে জানতে চাইলেও আমি একই উত্তর দিতাম। এই সিদ্ধান্তটা অনেক ভাবেই নেয়া যায়। একটা উপায় হল সম্ভাব্যতা যাচাই করা, যার টেকনিক্যাল নাম "মার্কভ মডেল এনালাইসিস"। ব্যাক্তিগতভাবে আমার কাছে যেই উপাত্যের উৎস আছে, তাতে "I want to eat" এর পরের শব্দটা "chinese food" হওয়ার সম্ভাব্যতা ০.০০০৫৭৪২। অপরদিকে "I want to eat" পরের শব্দটা "english food" ০.০০০২৬৫৬। স্পস্টত "চাইনিজ ফুড" মানুষ "ইংলিশ ফুড" এর থেকে বেশী পছন্দ করে। তাই ব্যাবসাটা "ইংলিশ ফুড" এর না হয়ে "চাইনিজ ফুড" এর হলে ভালো জমবে । হতে পারে আপনার বিজনেস পার্টনারের মার্কেট সম্পর্কে অভিজ্ঞতা আপনার থেকে বেশী (অভিজ্ঞতাও এক ধরনের পরিসংখ্যান, এটা নিয়ে আরেকদিন আলোচনা হবে)।
টেকনিক্যালি,
P(english food|I want to eat) = count(I want to eat english food)/count(I want to eat) = 0.0002656
P(chinese food|I want to eat) = count(I want to eat chinese food)/count(I want to eat) = 0.0005742
উপরের আলোচনার কারন কিভাবে "ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং" এর মাধ্যমে সম্ভাব্যতা যাচাই করা হয়, তার সম্পর্কে একটা টেকনিক্যাল ধারনা দেয়া। যদি উপরের অংশটুকু বুঝতে না পারেন, তবে আর বাকি অংশ না পড়াই ভালো হবে।
এবার আসুন পরিসংখ্যানে বাংলাদেশের বর্তমান সময়কার কিছু তথ্য জেনে নেই। রাজনৈতিক নেতাদের নানান হুমকি ধামকির কথা পত্রিকায় বা টিভি চ্যানেলে আমরা দেখি। ব্যাক্তিগত পর্যায় থেকে শুরু করে দলীও পর্যায়ে নানান সময় নানান ধরনের হুমকি দেয় রাজনীতিবিদরা। কিছু হুমকি থাকে ব্যাক্তিগত, কিছু দলগত। এবার দেখি এ সম্পর্কে পরিসংখ্যান কি বলে। পরিসংখ্যানটি করা হয়েছে বাংলাদেশের প্রধান দুই রাজনৈতিক দল এর উপরে।
আসুন দেখি, কোন রাজনৈতিক দলের সদস্যরা বেশী হুমকি দেয়। আমার ব্যাক্তিগত উপাত্য থেকে পরিসংখ্যান অনুযায়ী যদি কোন "রাজনৈতিক দলের ব্যাক্তি" হুমকি দেয়, তবে সেই ব্যাক্তির বিএনপির রাজনীতির সাথে যুক্ত থাকার সম্ভাবনা .৪৩৮। অপরদিকে তার আওয়ামী লীগের রাজনীতির সাথে যুক্ত থাকার সম্ভাবনা .০০০০৪৭৬।
P(বিএনপির|হুমকি দিয়েছেন) = count(হুমকি দিয়েছেন বিএনপির)/count(হুমকি দিয়েছেন) = 0.43820058
P(আওয়ামী লীগের|হুমকি দিয়েছেন) = count(হুমকি দিয়েছেন আওয়ামী লীগের)/count(হুমকি দিয়েছেন) = 0.0000476
এবার দেখি কোন রাজনৈতিক দল বেশী হুমকি দেয়। আমার ব্যাক্তিগত উপাত্য থেকে পরিসংখ্যান অনুযায়ী যদি কোন "রাজনৈতিক দল" হুমকি দেয়, তবে দেই দল বিএনপি হওয়ার সম্ভাবনা .২৫৯৩৬০৭। তার মানে বিএনপি ব্যাক্তিগত পর্যায়ে(উপরের পরিসংখ্যান) দলগত পর্যায় থেকে আরও বেশী হুমকি দেয়। অপরদিকে হুমকি প্রদানকারী আওয়ামী লীগ হওয়ার সম্ভাবনা .০২১৯১৭(ব্যাক্তিগত পর্যায়ের তুলনায় ব্যাপক অগ্রগতি)। তার মানে আওয়ামীলীগ ব্যাক্তিগত পর্যায়(উপরের পরিসংখ্যান) দলগত পর্যায় থেকে হুমকি দেয়।
P(বিএনপি|হুমকি দিয়েছে) = count(হুমকি দিয়েছে বিএনপি)/count(হুমকি দিয়েছে) = 0.2593607
P(আওয়ামী লীগ|হুমকি দিয়েছে) = count(হুমকি দিয়েছে আওয়ামী লীগ)/count(হুমকি দিয়েছে) = 0.021917
যে সিদ্ধান্তগুল উপরের পরিসংখ্যান থেকে নেয়া যায়,
১) আওয়ামী লীগের তুলনায় বিএনপি বা বিএনপির নেতারা হুমকি বেশী দেয়।
২) বিএনপির লোকজন যেসব হুমকি দেয়, অধিকাংশ ক্ষেত্রে তা ব্যাক্তিগত সিদ্ধান্ত, দলের সিদ্ধান্ত না (এখান থেকে আরও অনুসিদ্ধান্তে পৌঁছানো যায়, বিএনপির ব্যাক্তিকেন্দ্রিক নেতৃত্ব দলীও নেতৃত্বের থেকে প্রভাবশালী)
৩) আওয়ামী লীগের অধিকাংশ হুমকি গুলো থাকে দলগত হুমকি, মানে দলের সিদ্ধান্ত, ব্যাক্তিগত হুমকি কম। (এখান থেকে আরও অনুসিদ্ধান্তে পৌঁছানো যায়, নেতৃত্বের ক্ষেত্রে দলের নেতা কিছুটা একনায়কের ভুমিকা পালন করেন)
যদিও দুটো পরিসংখ্যানেই বিএনপি বিপুল ব্যাবধানে এগিয়ে আছে। এর একটা কারন হতে পারে ক্ষমতায় থাকা দল হুমকি ধামকি কম দেয়। আর বিরোধি দলে যারা থাকেন তারা সবসময় হুমকির উপর রাখেন। আর আমার উপাত্তের উৎসের অধিকাংশ উপাত্ত লাস্ট ৫-৮ বছরের। এ সময়টাতে বিরোধী দলে ছিল বিএনপি।
এখানে আমি কোন রাজনৈতিক দলের পক্ষে বা বিপক্ষে কোন ধরনের প্রচার প্রচারনা করছি না। পরিসংখ্যান দিয়ে যে চলমান পরিস্থিতি সম্পর্কে যে ধারনা পাওয়া যায়, তার একটা উদাহরন এটা। এই পরিসংখ্যানের ফলাফলের গ্রহণযোগ্যতা পাঠকের হাতে ছেড়ে দিলাম।
কম্পিউটার বিজ্ঞানের ছাত্র হিসেবে "ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং" নিয়ে কাজ করার সময় অনেকটা মজা করেই এই পরিসংখ্যান বানানো। পরে একজন বড় ভাই অনুপ্রেরনায় সচলে এটা নিয়ে লিখতে বসি। পাঠকের গ্রহণযোগ্যতা পেলে এই ধরনের ইনফরমেশন নিয়ে আরও লিখব।
Note:This statistic has been developed by analyzing google data and building markov model using trigram.
মন্তব্য
সচলায়তনে আপনাকে স্বাগতম। পাঠক হিসেবে আমার কিছু প্রশ্ন আছে।
১. আপনার কোনো নাম বা নিক নেই কেন? অন্যান্য অতিথি লেখক থেকে আপনাকে আলাদা করে চেনা যাবে কীভাবে?
২. ট্রাইগ্রাম কী?
এ ধরনের আরো উপাত্ত বিশ্লেষণ নিয়ে পড়ার আগ্রহ জানিয়ে গেলাম।
মন্তব্য করার জন্যে ধন্যবাদ। আমি আসলে সচলে এর আগে কখনো লিখিনি। তাই লেখা সংরক্ষণ করলে যে আর এডিট করা যায় না (বা আমি এডিট করার অপশন খুঁজে পাচ্ছি না) তা জানতাম না। কিছু রেফারেন্স দেয়ার ইচ্ছা ছিল, কিভাবে লেখা এডিট করতে পারব জানাতে পারলে উপকৃত হতাম।
পথের দাবি
অতিথি লেখক অ্যাকাউন্ট থেকে লেখা পরিমার্জনার সুযোগ নেই। আপনি সচলায়তনে নিবন্ধন করে নিতে পারেন। সেক্ষেত্রে আপনার নিজস্ব অ্যাকাউন্টটি যদি সক্রিয় হয়, তখন লেখা এডিট করতে পারবেন।
সংরক্ষণের আগে প্রাগদর্শনের সুযোগ আছে, সেখানে দেখে নিতে পারেন কোনো ভুল হলো কি না।
বিষয়গুলো জানা ছিল না। লেখাতে নিক দিতে ভুলে গেছি নিবন্ধনের জন্যে আবেদন করেছি। সচল এত কঠিন কেন?
আমি কি পরবর্তীতে আমার মুল একাউন্ট থেকে লেখা এডিট করতে পারব? বা পুনঃ প্রকাশ করতে পারব? একটু জানবেন প্লিজ।
Trigram সম্পর্কে এখান থেকে জেনে নিতে পারেন।
পথের দাবি
এখানে দেখুন।
সচলায়তন কঠিন নয়, বরং বেশ সহজ, যদি আপনি নিয়মিত লিখতে চান।
আপনাকে ধন্যবাদ, সচলের অনেক নিয়ম জানলাম লেখাটা থেকে।
পথের দাবি
সম্ভাবনা যেটা বের করেছেন সেটা কন্ডিশনাল প্রবাবিলিটির সাধারণ সূত্র। মার্কভ মডেল দিয়ে কি করেছেন সেটা বোঝা গেলনা। সাথে ২ বাই ২ সারণি দিয়ে দিলে ভালো হতো; বোঝা যেত কতগুলো কেইস আপনি ক্যাপচার করেছেন।
উপাত্তের রিলায়াবিলিটি সম্পর্কে একটু বলবেন।
এরকম আরো পোস্ট আসুক।
মার্কভ মডেল কন্ডিসনাল প্রব্যাবিলিটিকে একটু মডিফাই করেই বানানো। কন্ডিসনাল প্রব্যাবিলিটির সাথে এর পার্থক্য,বাক্যে কোন শব্দের প্রব্যাবিলিটি বের করতে পুরো বাক্যকে কন্ডিসন হিসেবে ব্যাবহার না করে কেবলমাত্র ওই শব্দের পূর্ববর্তী একটি(বাইগ্রাম) বা দুইটি(ট্রাইগ্রাম) শব্দের সাথে কন্ডিসন্যাল প্রব্যাবিলিটি বের করলেই গ্রহণযোগ্য ভ্যালু পাওয়া যায়। এটাকে বলে মার্কভ এজ্যামসন। এর উপর ভিত্তি করে যে লেঙ্গুয়েজ মডেল, তাকে মার্কভ মডেল বলে।
২ বাই দুই সারনীতে দিলে সবই ট্রু পজিটিভ আসতো, কারন আমি একই ডাটা সেট থেকে (র্যান্ডম্লি তৈরি এবং সমৃদ্ধ টেক্সট করপাস) সব এক্স্যাক্ট কি ওয়ার্ড দিয়ে সার্চ করে কাউন্ট করেছি। ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে ২ বাই দুই সারনী দরকার হয় না, এটা টেক্সট ক্লাসিফিকেসন বা ইনফরমেসন এস্কট্রাক্সনের ক্ষেত্রে দরকার হয়।
আমি কাউন্ট গুলো দিতে পারি আপনি চাইলে।
পথের দাবি
মার্কভ মডেল কী সে সম্পর্কে ধারণা আছে।
আপনি যেটা করেছেন সেটার সাথে টুওয়ে সারণির পার্থক্য ভালো করে বোঝা যাবে যদি আপনি বিস্তারিত লেখেন। বোঝার চেষ্টা করছি আপনি কী করেছেন। নিছক কৌতূহল। বিশেষ করে কাউন্টগুলো কেমনে করছেন সেটা।
ড্যাটা কিভাবে ড়্যান্ডমলি তৈরী করলেন সেটাও বলেন।
বিস্তারিত।
প্রথমে একটা ব্যাপার ক্লিয়ার করে নিতে চাচ্ছি। ২ বাই ২ সারনী বলতে কি আপনি কি "2 by 2 Contingency Table" বুঝাচ্ছেন? কারন বাংলা নাম গুলোর সাথে আমি অভ্যস্ত না, আমার সাবজেক্ট পরিসংখ্যান না। ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর জন্যে যে স্টাটেস্টিক্যাল নলেজ লাগে, আমার কেবল সেই গুলো সম্পর্কে ধারনা আছে। আমি যেহেতু ইংলিশে লেখা বই গুলো ফলো করি, তাই বাংলা প্রতিশব্দ গুলো জানি না।
প্রসেসের বিবরন দিয়ে পরবর্তীতে আরেকটা লেখা দেয়ার ইচ্ছা আছে।
পথের দাবি
কৌতূহল জাগানো লেখা। পেছনের জিনিস-পত্র টেকনিকাল আরেকটু শেয়ার করতে পারেন? এক কালে মার্কভ নিয়ে কাজ করেছি, তাই আগ্রহী। তথ্যের উৎস এবং অন্যান্য জানতেও আগ্রহী। আরও বড় পরিসরে এই রকম তথ্যভিত্তিক কাজ এগিয়ে নিয়ে যাওয়া দরকার।
ধন্যবাদ। পরবর্তীতে টেকনিক্যাল ব্যাপারগুলর ডিটেলস দিয়ে একটি পোস্ট দেব। আমি চেস্টা করেছি টেকনিক্যাল ব্যাপারগুল যত সহজ ভাবে লেখা যায় যাতে সবাই বুঝতে পারে । তাই ডিটেলস দেই নি।
মনে হল, কৌতূহল উদ্দীপক একটি আর্টিকেলের কিছুটা `ইন্ট্রোডাকশন´ এবং `রেজাল্ট এন্ড ডিসকাশন` পার্ট পড়লাম। `মেথড এন্ড ম্যাটেরিয়ালস´ অংশটা বাকি থেকে গেলো।
এরকম লেখা আরো পড়তে চাই। কিন্তু `মেথড এন্ড ম্যাটেরিয়াল` অংশ সহ।
ধন্যবাদ 'মেথড' এন্ড 'ম্যাটেরিয়ালস' দুটোই দেয়া আছে, তবে বিশদ ভাবে না।আরেকবার একটু কস্ট করে মিলিয়ে দেখুন। লেখার শুরুতে "ইন্ট্রোডাক্সন", এর পরে "ম্যাথড" এর পরে "রেজাল্ট এন্ড ডিসকাশন" এবং সব শেষে "ম্যাটেরিয়ালস"। কিন্তু কোনটাই আসলে বর্ণনা করা হয় নি। পরবর্তীতে এটা নিয়ে লিখব হয়ত। আপনারা উৎসাহ দিলে অবশ্যই লিখব।
পথের দাবি
সারণি আকারে তথ্যের সারি আসলে বুঝতে আরেকটু সুবিধা হত। আপনি ঠিক কতগুলো উপাত্ত নিয়ে কাজ করেছেন সেটাও জানানো প্রয়োজন। আশা করি পরের লেখাগুলোতে এসব বিষয় উঠে আসবে। পরের লেখার জন্যে আগ্রহচিত্তে অপেক্ষায় থাকলাম।
মাসুদ সজীব
আপনার ড্যাটা খুব বেশি নির্ভরযোগ্য হবে না। কারণটা হলো হায়ারার্কির একটা লেভেল পর্যন্ত নেতাদের বক্তব্যের কন্টেন্ট এ্যানালাইসিস করা লাগবে। এখানে জটিলতা হলো কন্টেন্ট এ্যাভাইলেবল না। যদি এরকম কিছু অনুমিতি নেয়া যায় যেমন,
১। হায়ারার্কির একটা লেভেল পর্যন্ত পরিপূর্ণ কন্টেন্ট এ্যাভাইলেবল
২। এই পরিপূর্ণ কন্টেন্ট প্রতিটা প্রধান দলের সরকারে থাকা অবস্থায় ও বিরোধী দলে থাকা অবস্থায় আছে
এই দুইটা অনুমিতি না পূরণ করলে বা কাছাকাছি না যেতে পারলে ফলাফল যা আসবে তা নির্ভরযোগ্য হবে না।
আরেকটা জটিলতা হলো ড্যাটাতে সবধরণের হুমকি কি একই মাপে থাকবে। ওয়েইট এ্যাসাইন করলে ভিন্ন কথা। সেটা করলেও কীভাবে ওয়েইট দেবেন সেটা একটা বিতর্কিত বিষয় হয়ে থাকবে।
আর এই জাতীয় এ্যানালাইসিস করে আমরা কী এস্টাবলিশ করতে পারবো? বাংলাদেশের রাজনীতিতে বকাবাহ্যির হুমকি আছে, আড়ালে থাকা অস্ত্রের ঝনঝনানি আছে। টেক্সট থেকে হুমকি বের করলে এই আড়ালের বিষয়গুলো নাও আসতে পারে।
নীড়পাতা.কম ব্লগকুঠি
১। আমি যে কন্টেন্টে (করপাসে) এনালাইসিস করেছি, তা অনেক সমৃদ্ধ। বলতে গেলে পুরো ইন্টারনেট। হায়ারার্কির যে ব্যাপারটা বললেন, আমি আংশিক বাক্য থেকে কোন কন্টেন্ট নেই নি। পূর্ণ বাক্য থেকে নিয়েছি, কিন্ত এনালাইসিস করেছি ট্রাইগ্রামে, যেখানে বাইগ্রামে করলেই মোটামুটি সঠিক উত্তর আসার কথা।
২। এই ব্যাপারে আমি লেখার শেষের দিকে একটা ডিস্ক্লেইমার দিয়েছি।
//
যদিও দুটো পরিসংখ্যানেই বিএনপি বিপুল ব্যাবধানে এগিয়ে আছে। এর একটা কারন হতে পারে ক্ষমতায় থাকা দল হুমকি ধামকি কম দেয়। আর বিরোধি দলে যারা থাকেন তারা সবসময় হুমকির উপর রাখেন। আর আমার উপাত্তের উৎসের অধিকাংশ উপাত্ত লাস্ট ৫-৮ বছরের। এ সময়টাতে বিরোধী দলে ছিল বিএনপি//
আমি বলছিনা আমার "ফলাফল" পুরপুরি নির্ভরযোগ্য। আমি শুধু তথ্য গুলো দিলাম আর তথ্য থেকে কি ধরনের সিদ্ধান্ত নেয়া যায়, তার কিছু উদাহরন দিলাম। আমার কাছে যে ডাটা আছে, আমি কেবল সেগুলো নিয়েই এনালাইসিস করেছি। তাই রিয়াল সিনারিও সাথে পার্থক্য থাকতে পারে। তবে এটুকু বলতে পারি, করপাস অনেক সমৃদ্ধ। অন্তত বাংলাদেশের অনলাইন মিডিয়া যা রিপ্রেসেন্ট করে সেই সম্পর্কিত ইনফরমেশন পাবেন।
ওয়েট এনালাইসিস এর কন্সেপ্টটা খুবই চমৎকার। কিন্তু সে ক্ষেত্রে সেন্টিমেন্ট এনালাইসিস করতে হবে। সেন্টিমেন্ট এনালাইসিস করার মত এনাফ লেকজিক্যাল রিসোর্স বাংলা ভাষায় এখনো নেই, তৈরি হতে কম পক্ষে আরও ১০ বছর লাগবে।
এই জাতীও এনালাইসিস থেকে আমরা কি এস্টাব্লিশ করতে পারব, এটা সম্পুরন আমাদের ইচ্ছা। যেমন আমি তিনটা জিনিশ স্টাব্লিশ করতে চেয়েছি। আপনি চাইলে আরেকটা অনুসিদ্ধান্ত বের করতে পারেন,
"বাংলাদেশের অনলাইন মিডিয়ার তথ্য অনুযায়ী বিরোধি দল সরকারী দলের থেকে বেশী হুমকি দেয়"।
তথ্যকে ব্যাবহার করে আপনি কি করবেন, এটা সম্পূর্ণ আপনার ইচ্ছা
পথের দাবি
____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?
এই ইমোটা আমার কাছে নতুন
পথের দাবি
বাচ্যার্থঃ পপকর্ণ নিয়ে গ্যালারীতে বসলাম
লক্ষ্যার্থঃ পরের লেখার অপেক্ষায় আছি, তাড়াতাড়ি দেন
____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?
ধন্যবাদ
পথের দাবি
আগ্রহ নিয়ে পড়েছি। এই রকম লেখা আরো আসুক।
--------------------------------------------------------
এক লহমা / আস্ত জীবন, / এক আঁচলে / ঢাকল ভুবন।
এক ফোঁটা জল / উথাল-পাতাল, / একটি চুমায় / অনন্ত কাল।।
এক লহমার... টুকিটাকি
নতুন মন্তব্য করুন