জনপ্রিয়, কিন্তু কতটা

আলমগীর এর ছবি
লিখেছেন আলমগীর (তারিখ: শনি, ০৮/১১/২০০৮ - ১০:২৬অপরাহ্ন)
ক্যাটেগরি:

ভূমিকা:
মিথ্যা কথা নাকি তিন ধরনের হয়: হুদা মিছা, ডাহা মিছা আর পরিসংখ্যান। কয়েকদিন আগে দেখলাম একজন লিখেছেন ৯৮.৩২% পরিসংখ্যান অন-দি-স্পট মনগড়া। বলাই বাহুল্য এই ৯৮.৩২%এর কথাটাও মনগড়া হতে বাধ্য তাহলে। সে যাই হোক, সত্য মিথ্যার বিচার পরে, তবে পরিসংখ্যানের উপর আমরা কমবেশী সবাই নির্ভর করি। নির্ভর করি এই বিশ্বাসে যে পরিসংখ্যান বাস্তব অবস্থার একটা সহজ সাংখ্যিক ছবি দেয়। যেমন, আমাদের দেশের শতকরা ৮০ভাগ মানুষ গ্রামে বাস করে, বা দেশে প্রতি পাঁচ মিনিটে একটা শিশুর জন্ম হয়। এই সহজ পরিসংখ্যানগুলোতে কোন প্যাচ নেই, তাই বোঝা সহজ। কিন্তু তাই বলে সব পরিসংখ্যানই যে সহজ হবে, তার চেয়েও গুরুত্বপূর্ণ, সব পরিসংখ্যান যে বিশ্বাসযোগ্য হবে তার কোন কথা নেই। অমুক রঙ ফর্সাকারী ক্রিম ৯৮.৯৯% কার্যকর। এ ধরণের পরিসংখ্যান ক্রিমের বিক্রী যতই বাড়াক, আদতে বিশেষ কোন অর্থ বহন করে না। সে যাই হোক, এ লেখার উদ্দেশ্য ক্রিম বা জনসংখ্যা না। জনপ্রিয়তা পরিমাপে, নির্দিষ্ট করে ওয়েবসাইটের জনপ্রিয়তা নির্ণয়ে পরিসংখ্যানের ব্যবহার (এবং অপব্যবহার) নিয়ে কিছু কথা বলতে চাই এ লেখায়। তার আগে দু্টি বিষয় না বললে লেখাটার ভিত্তি ঠিক দাঁড়ায় না।

টেকি পয়েন্ট
প্রথমত, কেউ যখন কোন ওয়েবসাইট দেখে, তখন তার নিজের কম্পিউটার এবং কখনও কখনও আইএসপি (যেখান থেকে ইন্টারনেট লাইন নেয়া হয়েছে) ছাড়া দুনিয়ার আর কারো জানার উপায় নেই কী ওয়েবসাইট দেখা হলো। তবে গুগল বা সার্চ ইঞ্জিনে সার্চ দিয়ে, প্রাপ্ত ফলাফল ক্লিক করে কোন সাইটে গেলে গুগল তার খবর পাবে।
এ বিষয়টাকে উল্টো করেও বলা যায়। কোন ওয়েবসাইট দেখা হলে সেটি কোথা হতে দেখা হচ্ছে তার খবর কেবলমাত্র ওয়েব সাইটের মালিকের পক্ষেই জানা সম্ভব। (ওয়েব সাইট যে সার্ভারে থাকবে তার কর্তৃপক্ষও ইচ্ছে করলে জানতে পারবে।) অন্য কোন তৃতীয় পক্ষের পক্ষে সম্ভব না কে কোথা থেকে কোন ওয়েব সাইট দেখছে।

ওয়েব সাইট যারা চালান তাদের সবারই জানার আগ্রহ থাকে কোথা থেকে কত লোক সাইটটা দেখতে আসছে। গুগলে সার্চ দিয়ে বা অন্য কোন উপায়ে আসছে, নাকি বিজ্ঞাপন দেখে আসছে। সাধারণত দুটি পদ্ধতিতে এই হিসাবটা রাখা হয়। ওয়েব সার্ভার হিসাবে যে প্রোগ্রাম চলে তাকে এমনভাবে সেট করা যেন তার কাছে আসা প্রতিটি অনুরোধ কোথা থেকে আসল, কখন আসল এসব তথ্য লগ করে রাখে। সপ্তাহ বা মাস শেষে এসব লগ পর্যালোচনা করে বিভিন্ন বিষয় জানা যায়। (অস্ট্যাট, ওয়েবালাইজার এ ধরনের কাজে বহুল ব্যবহৃত হয়।) এসব ঝামেলা না করে স্বয়ং গুগলের উপরেও নির্ভর করা যায়। গুগল অ্যানালাইটিক্সের সুবিধা ব্যবহার করে একাজ করার জন্য ওয়েব সাইটের মধ্যে গুগলের কোড ঢুকাতে হয়। ফলে, প্রতিবারই কেউ যখন সাইটটি খুলে, গুগল জেনে যায় কোথা থেকে কখন খোলা হল। এতে গুগল সার্চ ব্যবহার না করলেও গুগল তথ্য পায়, এবং স্বভাবতই গুগল এ তথ্য কেবল সাইটের মালিকের কাছেই প্রকাশ করে।

পরিসংখ্যানগত প্যাঁচালি
দ্বিতীয়ত, ডেটা তো হলো, এবার তার সঠিকতার বিষয়। বিএনপিকে ৩৬% ভোটার ভোট দিয়েছে। তার মানে বাকী ৬৪% আলীগকে চায়- এই ছিল গেলবার ইলেকশনে শেখ হাসিনার কথা। এটাকে যাচাই করা হোক। সেজন্য আলীগ অফিসের সামনে দশজন মানুষকে ধরে জিজ্ঞাসা করা যাক, তারা কাকে ভোট দিয়েছে। খুব ভাল সম্ভাবনা তারা ১০জনই বলবে আলীগকে। আরে, শেখ হাসিনা তো ৬৪% কমই বলছে, আসলে তো দেখা যাচ্ছে ১০-এ-১০, অর্থাৎ ১০০%। আবার, এ কাজ বিএনপি অফিসের সামনে গিয়ে করলে সেটা ০% হবার সমূহ সম্ভাবনা। পরিসংখ্যানের পরিভাষায় এটাকে বলা হয় স্যামপ্লিং এর গোলমাল। ১০জন মানুষকে এমনভাবে বাছাই করা উচিৎ যাতে তারা সারা দেশের ৮কোটি ভোটারের প্রতিনিধিত্ব করে। ৮কোটি মানুষকে জিজ্ঞেস করতে গেলে আরেকটা ভোটই হয়ে যাবে, তাই সেটাতো আর সম্ভব না। কাজেই কতজনকে জিজ্ঞেস করলে নির্ভরযোগ্য কথা বের হবে, আর সেসব লোককে কী ভিত্তিতে বাছাই করা হবে তা নির্ধারণ করা সহজ না। কেউ বলতে পারেন, বাজারে গিয়া চোখ বন্ধ কইরা ১০জনরে ধরলে কেমন হয়? আবার, সিনেমা হলের টিকেট কাউন্টারের সামনে দাঁড়ানো লোকদের থেকেও ১০জন নেয়া যায়। উভয় ক্ষেত্রেই, ভাল-মন্দ আছে।

পরিসংখ্যান বলে স্যাম্পলিং এমনভাবে করতে হবে যেন ডেটাতে কোন কোরিলেশন (correlation) না থাকে। অন্য কথায়, প্রতিটি ডেটা যেন স্বাধীন (independent) হয়। যে কোন জরিপ পরিচালনা করার আগে এ দিকটি মাথায় রাখা শর্ত। এত কিছুর পরও ডেটা ১০০% নির্ভুল হবে না, কাজেই কতটুকু ভুল হচ্ছে তাও জানা জরুরী।

সফলতা ও বিফলতার মাপ
একটা ওয়েবসাইটের সফলতার বিচার করা হয় তার জনপ্রিয়তা থেকে। তবে জনপ্রিয়তাই আবার একমাত্র মাপকাঠি না। কোন সাইট জনপ্রিয় না হয়েও খুব গুরুত্বপূর্ণ হতে পারে। তবে গুরুত্ব থেকে জনপ্রিয়তার ধারণা পাওয়া সম্ভব।

গুগল পেজর‌্যাঙ্ক
একটা ওয়েবসাইটের গুরুত্ব অনুমান করা যায় অনেকটা তার গুগল পেজর‌্যাঙ্ক দেখে। এটা আবার কী? গুগলের কাছে সারা দুনিয়ার ওয়েবসাইটের ডেটা আছে। কোন সাইট অন্য কোন সাইটের সাথে লিংক করা সেটাও তার নখদর্পণে। এসব থেকে গুগল একটা ওয়েবসাইটের (আসলে প্রতিটি পৃষ্ঠার) গুরুত্ব পরিমাপ করে, এটাই পেজর‌্যাঙ্ক। পেজর‌্যাঙ্কের মান ১ থেকে ১০ পর্যন্ত (ননলিনিয়ার) হতে পারে। ঠিক কী পদ্ধতিতে পেজর‌্যাঙ্ক হিসেব করা হয় যদিও তা গুগল গোপন রেখেছে, তবে অনেকে ধারণা করে ভাল র‌্যাঙ্কের জন্য
- কতগুলো সাইট সেটাকে লিংক দিয়েছে
- লিংকপ্রদানকারী সাইটগুলোর নিজেদের পেজর‌্যাঙ্ক
- সাইটের আইপির ক্লাস (+ডোমেইন সাফিক্স)
- লিংকপ্রদানকারী সাইটগুলোর আইপির ক্লাস (+ডোমেইন সাফিক্স)
- সাইটের বয়স (কতদিন ধরে চলছে)
- সাইটের তথ্যের গুণগত মান
এসব কিছু গুরুত্বপূর্ণ। যেমন, .‌edu ডোমেইনের পেজর‌্যাঙ্ক অধিকাংশ সময়ই তুলনামূলকভাবে বেশী। .tk এর কোন পেজর‌্যাঙ্ক নেই বললেই চলে‍! তবে, সময়ের সাথে, পেজর‌্যাঙ্ক বাড়তে বা কমতে পারে। ৫ বা এর বেশী পেজর‌্যাঙ্ক হলে সাধারণত একটা সাইটকে গুরুত্বপূর্ণ/জনপ্রিয় ধরা যায়।

গুগলের পেজর‌্যাঙ্ক দেখে জানার উপায় নেই একটা সাইটে প্রতিদিন কতজন দেখতে আসে। (এটি কেবল গুগল এনালাইটিকস থেকে সংশ্লিষ্ট সাইটের কর্তার পক্ষেই জানা সম্ভব।) কোন একটা সাইট গড়ে কতজন দেখে তার একটা ধারণা পাওয়া যায় অ্যালেক্সা থেকে।

অ্যালেক্সা রেটিং
অ্যালেক্সা নিজে থেকেই বিভিন্ন ওয়েবসাইটের ট্রাফিক সম্পর্কে ডেটা সংগ্রহ করে এবং তা থেকে বিভিন্ন গ্রাফ দেখায়। এর সাথে সাইটের মালিক জড়িত থাকার কোন বিষয় নেই, আর ফলাফলও যে কারও জন্য উন্মুক্ত। অ্যালেক্সার গ্রাফ অনেকের খুব পছন্দের। তবে তার নির্ভরযোগ্যতা নিয়ে শক্ত প্রশ্ন আছে।

অ্যালেক্সা তাদের ভাষ্যমতে বেশ কিছু উপায়ে ডেটা সংগ্রহ করে। তার প্রথমটি হচ্ছে অ্যালেক্সা টুলবার। আগেই বলেছি, আমি সারাদিনে কী কী সাইট দেখি তা আমি আর আমার আইএসপি ছাড়া ভিন্ন কেউ জানার কথা না। কাজেই অ্যালেক্সার জানার উপায় নেই আমি কী দেখলাম। যদি জানাতে চাই, তবে অ্যালেক্সার তৈরি করা একটা সফটওয়ার, 'অ্যালেক্সা টুলবার' আমাকে নামাতে হবে। সেটা স্থাপনার পর, যতবারই আমি কোন সাইট দেখব অ্যালেক্সা সে ডাটা তার সার্ভারে পাঠাবে। এখন প্রশ্ন হলো, পৃথিবীতে কতজন ইন্টারনেট ব্যবহারকারী তাদের কম্পিউটারে অ্যালেক্সা টুলবার ইন্সটল করেছে, এবং তারা চিপায়-চাপায় কোন কোন ওয়েবসাইট দেখছে তা সানন্দে অ্যালেক্সাকে জানান দিচ্ছে? অ্যালেক্সার ওয়েবসাইট থেকে এ সংখ্যাটি জানা যায় না। আগে যেমন বলছিলাম, এটি স্যাম্পলিংএর দুর্বলতা।

অ্যালেক্সার ডেটা সংগ্রহের অন্যান্য অনুউল্লেখিত পদ্ধতির একটি হলো ডিমজ ডিরেক্টরি। (ডিমজ হলো পুরোপুরি মনুষ্য সম্পাদিত ওয়েবসাইট তালিকা। একসময় ডিমজে নাম লেখানো সাইটকে খুব তমিজের সাথে দেখা হত, এখন সেদিন আর নেই।) ডিমজ ডিরেক্টরিতে কোন সাইট তালিকাভুক্ত হলে অ্যালেক্সা তাকে পছন্দ করা শুরু করে। কিন্তু ডিমজের ট্রাফিকে অ্যালেক্সার প্রবেশাধিকার আছে কিনা, থাকলেও ডিমজ কতটুকু জ্ঞান রাখে তা নিয়ে পাবলিক কোন তথ্য নেই।

ডেটা সংগ্রহের পদ্ধতির পর অ্যালেক্সার বড় দুর্বলতা হলো, এর ফলাফল প্রকাশের ধরন। অ্যালেক্সার ভাষ্যমতে, মোট নেট ব্যবহারকারীদের (আসলে যাদের অ্যালেক্সার টুলবার আছে) কত শতাংশ লোক একটা কোন ওয়েবসাইট দেখছে। এটি তিনমাসের গড় হিসাবে দেখানো হয়। কতজন ব্যবহারকীদের মধ্যে সেটি হিসাব করা হলো, গড় ছাড়াও বিচ্যুতি (standard deviation) কত সেটি অ্যালেক্সা বলে না। দেশ-ওয়ারি পরিসংখ্যান পাওয়া গেলেও তার নির্ভরযোগ্যতা নিয়ে প্রশ্নের উত্তর মিলে না।

শেষকথা:
একটা ওয়েবসাইট কতটা জনপ্রিয় তা মাপা খুব কঠিন। সাইট যে বা যারা পরিচালানা করেন, শুধুমাত্র তারাই কেবল সাইটের ট্রাফিক সম্পর্কে সঠিক ধারণা রাখেন। গুগলের পেজর‌্যাঙ্ক একটা সাইটের গুরুত্ব সম্পর্কে কিছুটা ধারণা দিতে পারে, তবে জনপ্রিয়তা সম্পর্কে কোন কিছু প্রকাশ করে না। অ্যালেক্সার ডেটা সংগ্রহের পদ্ধতি ও র‌্যাঙ্কিং আগাগোড়া প্রশ্নবিদ্ধ। তবে যেসব সাইটকে অ্যালেক্সা জনপ্রিয় দেখায় সেগুলো বাস্তবে জনপ্রিয় হতেও পারে।

বাড়তি কথা: রুট সার্ভার অপারেটর বা তাদের মিরর অপারেটরদের কাছে প্রতিটি ডোমেইনের কিছু তথ্য থাকে। সেখান থেকে ট্রাফিক বা জনপ্রিয়তা সম্পর্কে কিছু ধারাণা করা যেতে পারে।


মন্তব্য

এস এম মাহবুব মুর্শেদ এর ছবি

চমৎকার লেখা!! কয়েকটা প্রশ্ন:
১। গুগল টুলবার ব্যবহার না করে গুগল র‌্যাংক কিভাবে জানা যাবে?
২। ডিমজে ব্যাপারটা পরিষ্কার হলো না।

সচলায়তন গুগল এনালাইটিকস ব্যবহার করে এর স্ট্যাটিকস এর জন্য।

====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির

সবজান্তা এর ছবি
আলমগীর এর ছবি

১. গুগলের ১৬টির মতো সার্ভার আছে র‌্যাংক দেখানোর জন্য। এগুলোর এক বা একাধিককে কুয়েরি করে জানা যায়। সবজান্তা যে লিংক দিয়েছে, এরকম আরো প্রচুর সাইট পাবেন, যারা গুগলের সার্ভার থেকে র‌্যাংক বের করে দেয়।

র‌্যাংক দেখার জন্য, এবং সেটা বাড়ানোর চেষ্টায় একসময় আমি linkvendor.com সাইটটা ব্যবহার করতাম। র‌্যাংকটুল ছাড়াও SEO (search engine optimisation) এর জন্য বেশ কিছু টুল আছে এখানে।

২. তখনও গুগল আসেনি,মজিলা/নেটস্কেপের মাথায় আসল ওয়েবে ছড়িয়ে ছিটিয়ে থাকা 'ভাল' সাইটগুলোর একটা ডিরেক্টরি দরকার। কিন্তু অটোমেটেড বট ভিত্তিক না, মানুষ-সম্পাদিত একটা তালিকা। তৈরি হলো ডিমজ। ডিমজ -এ কোন সাইটের ভুক্তি থাকলে তার র‌্যাংক সুবিধাজনক হয়। তবে ভুক্তি করানোটাই কঠিন। প্রথমত, কোন সাইট সাবমিট করলে তাদের সংশ্লিষ্ট সেকশনের সম্পাদক ঐ সাইট ঘুরে, পছন্দ হলে তা যোগ করেন। পছন্দ না হলে বিনে ফেলে দেন। সাইটের মালিক জানেন না। একবার না পারলে, পরবর্তী ছয়মাসের মধ্যে আবার সাবমিট করা যায় না।

এক সময় ডিমজের ভুক্তি গুরুত্বপূর্ণ ভাবা হত। তবে কালেকালে এর সমালোচনা বেড়েছে, স্বচ্ছতাও নেই। স্বজনপ্রীতি, অর্থের বিনিময়ে ভুক্তি এসব অভিযোগও আছে কোন কোন সম্পাদকের বিরুদ্ধে। বিভিন্ন ফোরামে এসব নিয়ে কথা পাবেন।

বাংলা সাইটগুলোর মধ্যে অভ্র, একুশে সহ বেশ কিছু সাইটের ভুক্তি আছে। এখানে দেখতে পাবেন। কিন্তু একাধিকবারের চেষ্টাতেও জুমলার ভুক্তি হয়নি।

ডিমজের সম্পাদক কারা তাও সরাসরি জানা যায় না। নিজে সম্পাদক হওয়ার জন্য আবেদন করা যায়। বাংলাদেশে জামিল আহমেদ, এবং কলকাতায় একজন আমার জানামতে সম্পাদক ছিলেন/আছেন। উবুন্টুর রাসেল জনও থাকতে পারেন।

এস এম মাহবুব মুর্শেদ এর ছবি

পেইজ র‌্যাংকের উপর উইকি আর্টিকেল: http://en.wikipedia.org/wiki/PageRank

====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির

সৈয়দ নজরুল ইসলাম দেলগীর এর ছবি

নাট্যকার মাসুম রেজার দুই মেয়ে... একজনের নাম রূপকথা, আরেকজনের নাম চুপকথা...
তারা বলে আমরা তিন জন- রূপকথা, চুপকথা আর মিছাকথা (মাসুম রেজা)

প্রথমটুক পইড়া এই কমেন্ট করলাম... তারপরেরটুক পড়ার চেষ্টা করলাম কিন্তু বুঝলাম যে এইটা আমার জন্য প্রযোজ্য নহে তাই কাটলাম।
______________________________________
পথই আমার পথের আড়াল

______________________________________
পথই আমার পথের আড়াল

জুলিয়ান সিদ্দিকী এর ছবি

ক্লিক করলাম। পড়লাম। কিন্তু কী বুঝলাম তাই বুঝতে পারলাম না। তবে এইটা বুঝলাম যে, হুদাই পড়লাম। ধন্যবাদ। দেঁতো হাসি

____________________________________
ব্যাকুল প্রত্যাশা উর্ধমুখী; হয়তো বা কেটে যাবে মেঘ।
দূর হবে শকুনের ছাঁয়া। কাটাবে আঁধার আমাদের ঘোলা চোখ
আলোকের উদ্ভাসনে; হবে পুন: পল্লবীত বিশুষ্ক বৃক্ষের ডাল।

___________________________
লাইগ্যা থাকিস, ছাড়িস না!

প্রকৃতিপ্রেমিক এর ছবি

পরিসংখ্যানের সুবাদে সবাই কমবেশী মিথ্যা চালিয়ে যাচ্ছে।

ডিমজে একাধিকবার ট্রাই করার পরেও নিসর্গ (পেজড়্যাংক ৪) যুক্ত হয়নি। বাংলা সেকশনেই চেস্টা করেছিলাম।

চামে চামে নিসর্গের লিংক দিয়ে দিলাম।

@আলমগীর ভাই,
জুমলার নতুন ভার্সানে আপগ্রেডের পরে ম্যানুয়ালি ড্যাটা ট্রান্সফার করেছি। আপনাকে আর জ্বালাইনি। অনেক কষ্ট হয়েছে অবশ্য।

আলমগীর এর ছবি

ভাল করছেন। আমি সাহায্য করতে পারতাম কিনা সন্দেহ আছে মন খারাপ
ডিমজ নিয়া সময় নষ্ট করার দরকার নেই, কষ্ট করে SEO করেন, ৫ এমনকি ৬ পেয়ে যেতে পারেন। ওই .edu থেকে একটা লিংকব্যাক দিন।

হিমু এর ছবি
দ্রোহী এর ছবি

যৌবনজ্বালারে পার করতে খবরাছে.................................


কী ব্লগার? ডরাইলা?

আলমগীর এর ছবি

বানান কইরা কইতে বারণ। জেজে/JJ বলবেন।
জ্বালা যত বেশী তত হিট দেঁতো হাসি

রানা মেহের এর ছবি

সচলায়তন যে কী কী সব পরিসংখ্যান দেয়...........................
-----------------------------------
আমার মাঝে এক মানবীর ধবল বসবাস
আমার সাথেই সেই মানবীর তুমুল সহবাস

-----------------------------------
আমার মাঝে এক মানবীর ধবল বসবাস
আমার সাথেই সেই মানবীর তুমুল সহবাস

সংসারে এক সন্ন্যাসী এর ছবি

এইসব বোঝা আমার কম্মো নয়!
লেজ তুলে পালাই হাসি

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
একলা পথে চলা আমার করবো রমণীয়...

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
টাকা দিয়ে যা কেনা যায় না, তার পেছনেই সবচেয়ে বেশি অর্থ ব্যয় করতে হয় কেনু, কেনু, কেনু? চিন্তিত

আলমগীর এর ছবি

কী করুম কন। গুণীজনেরা বলে গেছেন এ পোস্টটা দরকার ছিল; একটু কম বোঝা গেলেও দেঁতো হাসি

নতুন মন্তব্য করুন

এই ঘরটির বিষয়বস্তু গোপন রাখা হবে এবং জনসমক্ষে প্রকাশ করা হবে না।