আমাদের গবেষণা এবং সচলায়তন

অতিথি লেখক এর ছবি
লিখেছেন অতিথি লেখক (তারিখ: রবি, ১১/০৩/২০১২ - ১০:৫৫অপরাহ্ন)
ক্যাটেগরি:

কিছুদিন আগে সচলায়তনে তরুণ গবেষকদের আহবান করা হয়েছিল নিজেদের গবেষণা নিয়ে কিছু লিখতে। খানিকটা সেই কারণে, আর খানিকটা অন্য একটি প্রয়োজনে আজকের এই ছোট্ট লেখার অবতারনা।

প্রথমে নিজের খানিকটা পরিচয় দিয়ে নেই। নাম হাম্মাদ আলি, পেশায় ব্র্যাক বিশ্ববিদ্যালয়ে প্রভাষক। ২০১০ সালে কানাডার ব্রিটিশ কলাম্বিয়া বিশ্ববিদ্যালয় থেকে মাস্টার্স শেষ করে এসেছি। মাস্টার্স-এর সময় গবেষণার বিষয় ছিলো ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং। সহজ ভাষায় বলতে গেলে, কম্পিউটারে ইংরেজি ভাষার ব্যবহার সহজ করা, এবং বর্তমানে মানুষের করতে হয় এমন অনেক কাজ কম্পিউটারের মাধ্যমে করানোই এই ক্ষেত্রে কাজের প্রধান উদ্দেশ্য। উদাহরণ হিসেবে বলা যেতে পারে, আমাদের ল্যাবে অতীতে কিছু কাজ হয়েছে যেখানে পত্রিকা থেকে খবর পড়ে সেই খবরের একটি সারসংক্ষেপ তৈরী করে দিতে পারবে। এর চাইতে আরেকটু কঠিন পর্যায়ের কাজ হচ্ছে একই বিষয়ে একাধিক পত্রিকা থেকে খবর পড়ে তারপর এমন একটি সংক্ষিপ্ত রিপোর্ট তৈরী করা যাতে সব কয়টি পত্রিকার উল্লেখযোগ্য তথ্য থাকবে, এবং একইসাথে পরস্পরবিরোধী বা পরস্পর-সমর্থক তথ্যগুলিকে আলাদা করে উল্লেখ করে দেওয়া হবে। মাস্টার্স থিসিস এর জন্য আমার কাজ ছিলো ইন্টারনেট থেকে বিভিন্ন সামগ্রীর রিভিউ নিয়ে তার সারসংক্ষেপ তৈরী করা। এই কাজের একটা বিশেষ অংশ ছিলো একই জিনিস নিয়ে কিছু লেখায় ইতিবাচক এবং কিছু লেখায় নেতিবাচক মন্তব্য আসছে কিনা সেইটা খেয়াল করা। যেমন ধরুন, একটি লেখায় বলা হলো অমুক ল্যাপটপের ব্যাটারির আয়ু অসাধারণ, আবার আরেকটিতে বলা হলো এই ব্যাটারি জঘন্য! সেক্ষেত্রে রিপোর্টে এইটার উল্লেখ থাকতে হবে, এবং আসল রিভিউ থেকে যেন পাঠক বিস্তারিত পড়ে নিতে পারেন সেইটারও ব্যবস্থা রাখতে হবে।

যাইহোক, আজকের লেখাটা আসলে আমার মাস্টার্স-এর গবেষণা নিয়ে না। তবে যদি পাঠকদের আগ্রহ থাকে, তাহলে ভবিষ্যতে আরো কিছু লেখার চেষ্টা করবো। আপাতত আজকের আসল বিষয়ে আশা যাক। বর্তমানে ইংরেজিতে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং-এর কাজ অনেকদুর এগিয়ে গেছে। এমনকি চাইনিজ, আরবী বা হিব্রু নিয়েও অনেক কাজ হয়েছে এবং হচ্ছে। সেই তুলনায় বাংলা এখনো অনেক পিছিয়ে। ব্র্যাক বিশ্ববিদ্যালয়ে বাংলা নিয়ে গবেষণার জন্য ল্যাব আছে, যার সম্পর্কে বিস্তারিত পাবেন এইখানে। দেশে ফেরার পর থেকে আমি চেষ্টা করছি বাংলায় গবেষণার কাজ আরেকটু আগানোর। নিজের কাজের এলাকা, এবং বাংলায় করা সম্ভব (করার মতো সরঞ্জাম আছে) এমন বিষয়ের মাঝ থেকে আমরা বেছে নিয়েছি বাংলা লেখা থেকে মনের ভাব বা অনুভূতি প্রকাশ করে এমন বাক্য চিহ্নিত করার কাজটি। এই কাজটি মাঝারি মানের কঠিন, অর্থাৎ বলা যায় এই কাজ করার জন্য এর চাইতে সহজ কিছু কাজ আগে থেকে করা থাকতে হবে, আবার এইটা সম্পন্ন হলে এর চাইতে আরেকটু কঠিন কাজ করার রাস্তা পরিষ্কার হয়ে যাবে।

অনেকে প্রশ্ন করতে পারেন, কোন বাক্যে অনুভূতি প্রকাশ হচ্ছে তা জানতে পারে আমার কি লাভ? লাভ হল এই যে, ধরেন আপনি জানতে চান কয়জন মানুষের একটি লেখা পছন্দ হয়েছে, বা লেখার কোন অংশ পছন্দ হয়েছে। আরেকটু বড় পরিসরে চিন্তা করি। ধরুন আপনি জানতে চান একটি নতুন রাজনৈতিক সিদ্ধান্তের সাথে কতজন একমত হয়েছেন, বা কতজন দ্বিমত পোষণ করেছেন। এই কাজের পরের ধাপ হচ্ছে অনুভূতিটি ইতিবাচক না নেতিবাচক সেইটা বের করা। তবে আমরা ধাপে ধাপে আগাচ্ছি, কাজেই আপাতত আমরা চাচ্ছি কেবল কোন বাক্যে ভাব প্রকাশ করে হচ্ছে আর কোন বাক্যে হচ্ছেনা সেইটুকু বের করতে।

এই কাজের জন্য ইংরেজিতে ব্যবহার করা হয়েছে সুপারভাইসড (বাংলাটা মাথায় আসলোনা!) প্রশিক্ষণ। এই প্রক্রিয়ার মূল ধারনাটা এমন। প্রথমে এক বা একাধিক মানুষ অনেকগুলি (আসলেই অনেকগুলি, নাহলে পরিসংখ্যান-এর উপর ভরসা করা যায়না) বাক্যকে লেবেল করবে, এইক্ষেত্রে দুইটি লেবেলের যে কোন একটি দিয়ে। ধরি লেবেল দুইটি হচেছ "হ্যাঁ" এবং "না"। "হ্যাঁ" মানে বাক্যটিতে ভাব প্রকাশ হয়েছে, আর "না" মানে হয়নি। এরপর আমরা এমন একটু কম্পিউটার প্রোগ্রাম তৈরী করবো যার কাজ হবে সব "হ্যাঁ" লেবেলের বাক্যের মাঝে কি কি মিল আছে, বা সব "হ্যাঁ" বাক্যের এমন কি কি বৈশিষ্ঠ্য আছে যার মাধ্যমে নতুন একটি বাক্য "হ্যাঁ" হওয়া উচিত এইটা বলা যাবে। এই একই কাজ "না" লেবেলের জন্যেও করা হবে। এই প্রোগ্রামগুলি তৈরী হয়ে গেলে তারপর যেকোনো নতুন বাক্যকে এই দুইটির যেকোনো একটি লেবেল দেয়া যাবে। কিভাবে? যদি বাক্যটির বেশিরভাগ বৈশিষ্ঠ্য "হ্যাঁ" লেবেলের সাথে মিলে তাহলে "হ্যাঁ", নাহলে "না"। বলে রাখা ভালো, পুরো ব্যাপারটাই প্রবাবিলিটি-নির্ভর। একটা বাক্যে যতগুলি "হ্যাঁ" লেবেলের বৈশিষ্ঠ্য থাকবে, সেইটার লেবেল "হ্যাঁ" হওয়ার প্রবাবিলিটি তত বাড়বে।

এই হলো আমাদের কাজের মোটামুটি ধারণা। বুঝতেই পারছেন সবার আগে দরকার বাংলা লেখার অনেক বড় একটা সংগ্রহ। ছোটখাটো ডাটা দিয়ে পরিসংখ্যান চলবেনা। আমাদের ল্যাবে বাংলা খবরের কাগজের একটা সংগ্রহ আছে। সেইটা নিয়ে আমরা কাজ শুরুও করেছিলাম। কিন্তু আমরা খুব দ্রুতই লক্ষ্য করি যে খবরের কাগজে অনুভূতি প্রকাশ করে এমন বাক্য খুব বেশি পাওয়া যায়না। কাজেই আমাদের দরকার এমন ডাটা যেইখানে সবধরনের বাক্য থাকবে - সম্পূর্ণ একাডেমিক তথ্য থেকে শুরু করে প্রেম-ভালোবাসার কথা! এই পর্যায়ে আমার মাথায় সবার আগেই আসে সচলায়তনের কথা। প্রথমে এই সাইটের যোগাযোগ ফরম এর মাধ্যমে, পরবর্তীতে মুর্শেদ ভাইয়ের সাথে এই বিষয়ে যোগাযোগ করি। মুর্শেদ ভাই বলেন তিনি কথা বলে জানাচ্ছেন যে আমরা ডাটা ব্যবহার করতে পারবো কিনা। একইসাথে তিনি আমাদের বলেন এই বিষয়ে একটি নোট লিখে দিতে, যাতে কেউ যদি চান তার লেখা ব্যবহার না হোক তাহলে এইখানে কমেন্ট করে জানিয়ে দিতে পারবেন। এটাই হলো আমার এই লেখার দ্বিতীয় কারণ। আমি নিশ্চয়তা দিতে পারি আপনাদের লেখা শুধুমাত্র আমাদের গবেষণার কাজে ব্যবহার হবে, অন্য কোন কারণে কোথাও প্রকাশ করা হবেনা, এবং আমাদের গবেষণা থেকে প্রস্তূত যেকোনো লেখায় সচলায়তনের উল্লেখ থাকবে। আমরা চেষ্টা করবো আমাদের গবেষণার নিয়মিত খবর লিখে জানাতে। আশা করবো আপনারা সবাই নিজের মূল্যবান লেখা আমাদের সাথে শেয়ার করতে সম্মতি জানাবেন। আমাদের কাজের ব্যাপারে কারো কোন প্রশ্ন থাকলে সরাসরি আমাকে ইমেইল করতে পারবেন।

নিজের গবেষণা নিয়ে খুব সামান্য হলেও লিখতে পেরে ভালো লাগছে। ভবিষ্যতে আরো লেখার আশা রাখি। সবাইকে পড়ার জন্য অনেক অনেক ধন্যবাদ।


মন্তব্য

সন্দেশ এর ছবি

প্রিয় হাম্মাদ আলি,
শুভেচ্ছা জানবেন। মডারেটরদের মধ্যে আলোচনা এবং সচলদের সাথে প্রাথমিক আলোচনা শেষে আমরা একমত হই যে এব্যাপারে সাধারণভাবে সচলায়তনের আপত্তি নেই। তবে যেহেতু কনটেন্টের অধিকর্তা সচলের লেখকরা নিজেরা তাই কেউ যদি এই পোস্টে আপত্তি জানায় তাহলে তার লেখা গুলো বাদ দিয়ে আপনার গবেষণার কাজে ব্যবহার করতে পারেন। এ ব্যাপারে কোনো সাহায্য লাগলে আমাদের জানাতে পারেন।

আপনার গবেষণা সফল হোক এবং ডিজিটাল বাংলাকে আরো সমৃদ্ধ করুক এই কামনা রইল।

হাম্মাদ আলি এর ছবি

অনেক অনেক ধন্যবাদ!

হাম্মাদ আলি এর ছবি

লজ্জার বিষয়, নিজের নামটাই দেইনি লইজ্জা লাগে

হাম্মাদ আলি

হিমু এর ছবি

সুপারভাইজড > তত্ত্বাবহিত

হাম্মাদ আলি এর ছবি

ধন্যবাদ হিমু ভাই!

প্রকৃতিপ্রেমিক এর ছবি

সুপারভাইসড প্রশিক্ষণ কি supervised learning এর বাংলা? না হলে এর ইংরেজীটাও দেয়া প্রয়োজন। ধন্যবাদ।

হাম্মাদ আলি এর ছবি

জ্বী supervised learning এরই বাংলা করার চেষ্টা করেছি। আপনাকেও ধন্যবাদ!

অনিন্দ্য রহমান এর ছবি

প্রিয় হাম্মাদ,

লেখা পাবলিক ডোমেইনে প্রকাশ যখন করছি, তখন এই ধরণের কাজে আসলে আপত্তি/অনাপত্তির সুযোগ আছে কিনা এই বিষয়ে নিশ্চিত না। তবে সবিনয়ে জানাই, আমার কোনো লেখা/মন্তব্য ব্যবহৃত না হইলে স্বস্তিতে থাকব। গবেষণা কর্মে বিশেষ প্রকৃতির প্রতিষ্ঠানের সম্পৃক্ততার কারণে এই অনুরোধ করলাম। শুভ কামনা।


রাষ্ট্রায়াত্ত শিল্পের পূর্ণ বিকাশ ঘটুক

হাম্মাদ আলি এর ছবি

পাবলিক ডোমেইনের ব্যাপারে আমিও নিশ্চিত না, তবে আপনি যখন মানা করেছেন তখন আপনার ডাটা ব্যবহার করবনা কথা দিচ্ছি হাসি

ধ্রুব বর্ণন এর ছবি

ব্র্যাক বিশ্ববিদ্যালয়ে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং নিয়ে বেশ ভালো গবেষণা হয় শুনেছিলাম। আপনাদের সফলতা কামনা করছি। আমার সকল লেখা থেকে গবেষণা খাতিরে নির্দ্বিধায় ডেটা নিন।

rabbani এর ছবি

পাকিস্তানের সম্পৃক্ততার ব্যাপার টা পরিষ্কার করলে ভালো হয়

প্রকৃতিপ্রেমিক এর ছবি

এখানে পাকিস্তান এলো কিভাবে? বিস্তারিত বলেন।

rabbani এর ছবি

লেখক যে লিন্কটা দিয়েছেন [http://crblp.bracu.ac.bd/]
তাতে ঢুকলে এই লাইনের
"This center is supported in part by a grant from the PAN Localization Project (PanL10n) of the International Development Research Centre (IDRC) of Ottawa, Canada."
প্রথম লিঙ্কটাতে [http://www.panl10n.net/] গেলে দেখা যাই পার্টনার দেশ হিসেবে পাকিস্তান আছে।

সত্যপীর এর ছবি

উর্দু শেষ ভাষা হিসেবে লিস্টে তাই ডিফল্ট পাকিস্তানের পতাকা দেখায়, আপনি কার্সার বাংলার উপর নিলে বাংলাদেশের পতাকা দেখাবে অথবা নেপালীর উপর নিলে নেপালের পতাকা। ক্যানাডার প্রতিষ্ঠানটি এই দেশগুলির ভাষা ডিজিটালাইজেশনের জন্যে টাকা দিচ্ছে।

এই সহজ জিনিষটা ধরতে পারলেননা দেখে একটু অবাক লাগছে। ভাইটি কোন মতলব নাইতো?

..................................................................
#Banshibir.

rabbani এর ছবি

আপনার কাছে সহজ মনে হয়েছে, আমার কাছে হয়ত মনে হয়নি।
উপরে একজন তার ডাটা ব্যবহার করতে না করেছেন, তাই লিঙ্ক চেক করতে গিয়ে দেখলাম পাকিস্তানের পতাকার নিচে "partner country" লেখা দেখায় তাই বলেছি বিষয়টা পরিষ্কার করলে ভালো হয়।

আর হ্যা, পাকিস্তান মানেই আমার কাছে মতলববাজ।

প্রকৃতিপ্রেমিক এর ছবি

ইংরেজী অংশটুকু পড়ে ধারণা করছি এটা কানাডার কোন প্রতিষ্ঠানের একটা প্রজেক্ট।

হাম্মাদ আলি এর ছবি

কানাডিয়ান একটি প্রতিষ্ঠান এশিয়ার বিভিন্ন দেশকে নিজেদের ভাষায় গবেষণা করার জন্য ফান্ড দেয। আমরা যখন আমাদের ল্যাব শুরু করি, ২০০৩ সালে, তখন আমরাই তাদের কাছে ফান্ডের জন্য আবেদন করি। দুঃখিত, মনে ছিলোনা, নাহলে মূল লেখায় উল্লেখ করে দিতাম। আমাদের সাথে পাকিস্তানের সম্পর্ক এইটুকুই যে দুই দেশই একই জায়গা থেকে ফান্ড পায়।

rabbani এর ছবি

এটা জানানোর জন্য আপনাকে ধন্যবাদ

নিয়াজ মোর্শেদ চৌধুরী এর ছবি

ভালো উদ্যোগ। শুভ কামনা রইলো।

পুনশ্চঃ আমার লেখা বা মন্তব্য গবেষণার কাজে ব্যবহৃত হলে আমার কোন আপত্তি নেই।

হাম্মাদ আলি এর ছবি

অনেক ধন্যবাদ!

হিমালয় হিমু এর ছবি

গবেষনার জন্য অভিনন্দন । তবে আরো বিস্তারিত ভাবে এ ব্যাপারে জানার আগ্রহ বোধ করছি।

শেহাব এর ছবি

বাংলা কম্পিউটিং নিয়ে ব্র্যাক বিশ্ববিদ্যালয়ের মত গোছানো গবেষণা আর কোথাও কি হয়? ছড়ানো ছিটানো নয়, একটা নির্দিষ্ট সাংগঠনিক কাঠামোর অধীনে গোছানো গবেষণার কথা বলছি!

প্রদীপ্তময় সাহা এর ছবি

আমার তো সচলায়তনে প্রকাশিত লেখার সংখ্যাই মাত্র দুই ।
তবু বলে রাখি আমার লেখা ব্যবহার করলে আমার আপত্তি নেই ।

গবেষণায় সাফল্য অর্জন করুন এই শুভকামনা রইল ।

বন্দনা এর ছবি

শুভকামনা রইলো।

সাবেকা এর ছবি

আমার কোন লেখা সচলায়তনে নেই, মানে এখনো লিখে উঠতেই পারিনি ! তারপরো ভবিষ্যতে লেখার আশা রাখি এবং সেই অলিখিত অপ্রকাশিত লেখাটি ভবিষ্যতে কোন একদিন দরকার মনে করলে স্বচ্ছন্দে গবেষণার কাজে ব্যবহার করতে পারেন হাসি

ষষ্ঠ পাণ্ডব এর ছবি

প্রিয় হাম্মাদ আলি

আপনার বিশ্ববিদ্যালয়ের কোন গবেষণাকর্মে সচলায়তন বা অন্য কোথাও আমার প্রকাশিত কোন লেখা বা মন্তব্য ব্যবহৃত না হলে আনন্দিত হবো।

আপনাদের সাফল্য কামনা করছি।


তোমার সঞ্চয়
দিনান্তে নিশান্তে শুধু পথপ্রান্তে ফেলে যেতে হয়।

নতুন মন্তব্য করুন

এই ঘরটির বিষয়বস্তু গোপন রাখা হবে এবং জনসমক্ষে প্রকাশ করা হবে না।