কখনও ভেবেছেন কিভাবে গুগল আপনার ভুল বানানকে বুঝে ফেলে ঠিক শব্দটা খুঁজতে বলে? বিষয়টা আমার কাছে জাদুর মতো লাগতো।
সমাধান পেলাম প্রায় পাঁচ বছর আগে একটা বই পড়তে গিয়ে। বইটার নাম "আর্ট অফ কম্পিউটার প্রোগ্রামিং", লেখক ডোনাল্ড নূথ। ইংরেজী সাহিত্য শেক্সপীয়রের মতো কম্পুবিজ্ঞানের মহারথী হলেন নূথ। নূথের বই পড়ে বোঝা মুস্কিল, বিল গেটস ঘোষনা দিয়েছিলেন যে, কেউ যদি নূথের বই পড়ে ঠিকমতো পুরোটা বুঝতে পারে তাহলে মাইক্রোসফটে চাকরীর দরখাস্ত করতে। আমি কম্পুবিজ্ঞানের ছেলে না, ফলে বইটার আশি ভাগই ঠিক বুঝতে পারিনি
(মজার কথা হল নূথের বই প্রায় নির্ভুল বই, তারপরেও যদি ভুল ধরে দেয় কেউ তবে নূথ তাকে ২.৫৬ মার্কিন ডলার পুরস্কার দেন। যদ্দূর জানি AIUB এর এক ছাত্র নূথের ভুল ধরে এই পুরস্কারটি পেয়েছিলেন, বিষয়টি যে বিরল সৌভাগ্য তা বলাই বাহুল্য)
মূল কথায় আসি, বইতে প্রথম সাউন্ডেক্স ফাংশানের সাথে পরিচিত হই। সাউন্ডেক্স তৈরি হয় মার্কিন বিমান দপ্তরের যাত্রীদের নাম খুঁজবার জন্য যেন বানান ভুল হলেও সমস্যা না হয়।
সাউন্ডেক্স যা করে তা হল, শব্দের উচ্চারন অনুযায়ী একটা সংখ্যামান তৈরি করে। লালন আর লীলেন এর সংখ্যামান কাছাকাছি হয়, কিন্তু লালন আর লন্ডন এর মানে বড় ফারাক থাকে।
স্পেলচেকিং এ সাউন্ডেক্স তেমন ব্যবহৃত হয় না। রীতি হল মেটাফোন ফাংশান ব্যবহার করা (ডরাইবেন না, ননটেকনিক্যাল অডিয়েন্সের জন্যই লেখা)। বাংলা স্পেলচেকিং এ মেটাফোন ব্যবহার করা যায় না, কিন্তু মূলনীতিকে ভিত্তি করে এর মতো ফাংশান তৈরি করে নেওয়া যায়। কিছু গবেষনা পত্র পড়ে নিজের সুবিধা মতো একটা বাংলা মেটাফোন ফাংশান বানিয়ে ফেললাম।
এবার দেখা যাক এই বাংলা মেটাফোন ফাংশান কিভাবে কাজ করে। মেটাফোনর কাজ হল শব্দটি শুনতে যেমন লাগবে সেইভাবে তাকে মনে রাখা। কারন আমরা যখন বানান লিখি, তখন কানে যেমন শুনি সেভাবেই বানান লিখতে চেষ্টা করি। ফলে ূ আর ু কার ভুল হতেই পারে, ভুল হতে পারে ষ/স/শ আর ণ/ন এর ব্যবহার।
বাংলা মেটাফোন প্রথমে শব্দ থেকে সমস্ত কার গায়েব করে ফেলে। ফলে
সাক্ষর এর চেহারা হয় সক্ষর এবং
শ্বাখখোর এর চেহারা হয় শ্বখখর
এরপর মুছে ফেলা হয় ব-ফলা আর য-ফলা
ফল: সক্ষর ও শখখর
এরপর ক্ষ হয় কক
ফল: সককর ও শখখর
এরপর সব শ/স/ষ/চ/ছ কে "স" আর ন/ণ/ং/ঁ/ঞ কে "ন" বানিয়ে ফেলা হয়। আর যেসব বর্নের সাথে হ যুক্ত হয়ে নতুন বর্ন হয়েছে তাদের হ-টাকে বাদ দিয়ে দেওয়া হয়। (যেমন খ=ক+হ, ঘ=গ+হ)
ফল: সককর ও সককর
কি মজা! ভুল বানান আর ঠিক বানানের চেহারা কিন্তু এখন পুরো এক!
স্পেলচেকার ডিকশনারীতে কোন শব্দ না পেলে এভাবে মেটাফোন তৈরি করে শব্দ খোঁজে। যেসব শব্দের মেটাফোন এক তাদের উচ্চারনও এক। ডিকশনারীতে যেহেতু সব শুদ্ধ শব্দ থাকে, তাই একই মেটাফোনের শব্দগুলি সম্ভাব্য শুদ্ধবানান হিসেবে ব্যবহারকারীকে দেখানো হয়। বাস্তবে পদ্ধতিটি আরো জটিল, কিন্তু এই পর্যন্ত করতে পারলেও চমৎকার কাজ দেয়।
কিছু বাংলামেটাফোন (অরূপের ভার্সন) এর নমুনা:
লীলেন lln
লালন lln
লন্ডন lndn
রবীন্দ্রনাথ rbndrnt
সচলায়তন sslitn
ধরা যাক আমি লিখেছি "ভবছেন"। "ভবছেন" এর মেটাফোন হল bbsn। কিন্তু ডিকশনারীতে "ভবছেন" শব্দটা পাওয়া গেল না। তাহলে শব্দটি ভুল।
শুদ্ধ কি হতে পারে? ডিকশনারীতে থাকা যেসব শুদ্ধ শব্দের মেটাফোন == bbsn তাদের তালিকা বের করি, এই তালিকাটি হবে আমাদের রেকমেন্ডেড শব্দের তালিকা।
শব্দ -- মেটাফোন
বিবসন bbsn
বিবসনা bbsn
বিবাসন bbsn
বিবেচনা bbsn
বিভীষণ bbsn
ভাবছেন bbsn
ভেবেছেন bbsn
এই পদ্ধতির একটা সমস্যা হল "ভেবেছেন" এর জায়গায় "খেবেছেন" (কারন এর মেটাফোন kbsn) লিখলে এটা কাজ করবে না। তখন আমাকে হয়তো রিভার্স মেটাফোন ব্যবহার করতে হতে পারে। সেগল্প না হয় আরেকদিন হবে..
(চলবে)
মন্তব্য
দারুণ!!
গবেষণা পত্র হতে পারে কিন্তু।
------
স্পর্শ
অনেককিছু শেখা যাচ্ছে। পরের পর্বের অপেক্ষায় থাকলাম।
এটা দারুন হচ্ছে ।
আমার ডিকশনারিতে ভবছি দেয়ার পরে যে সম্ভাব্য শব্দগুলো এলো তা হলো
ভাবছি
ভব
ভজছি
ভরছি
ভিজেছি
ভরেছি
ভবন
ওরুপ দিলে আসে
ইস্কুরুপ
একন দিলে আসে
একর
একল
একলা
এখন
একরা
এখান
একখান
একজন
একতান
একদিন
একিন
এক
এগোন
এড়ান
এলান
একই
একক
একত্ব
একটু
এবং আরো অনেক অনেক...
তাহলে কি এই স্পেলচেকারটাও আপনার পদ্ধতিতে কাজ কর? নাকি আলাদা?
পড়তেছি মন্দিয়া.....
ঋণম্ কৃত্বাহ ঘৃতম্ পীবেৎ যাবৎ জীবেৎ সুখম্ জীবেৎ
অজ্ঞাতবাস
বাংলা ভাষা নিয়ে অরূপ ভাই তলে তলে এতদূর! ব্রাভো!
আমি একটা ভবিষ্যদ্বাণী করি। কার্যকর বাংলা স্পেলচেকার বানানোর কৃতিত্ব অর্জন করলে, দুদিন আগে পরে একুশে পদক মাস্ট।
................................................................
আমার সমস্ত কৃতকর্মের জন্য দায়ী আমি বটে
তবে সহযোগিতায় ছিল মেঘ : আলতাফ হোসেন
..................................................................................
তোমার কাছে পৌঁছার একটাই পথ থাকা মানে হলো তোমারও বিকল্প আছে এই ধরাধামে
সরকার একুশে পদক না দিলেও
আমরা ২১ জন কাঙাল মিলে অরূপের জন্য একটা নতুন একুশে পদক অন্তত দিতে পারবো
ঠিক ! তবে একটু দলবাজী করতে হবে আর মালয়েশিয়া থেকে আসার সময় অমুক তমুকের জন্য গিফট টিফট আনা মাস্ট ।
আমার বাসায় একটা কনিয়াকের গ্লাস আছে...................
ঋণম্ কৃত্বাহ ঘৃতম্ পীবেৎ যাবৎ জীবেৎ সুখম্ জীবেৎ
অজ্ঞাতবাস
- আমার কাছে কণিয়াক (আসল বানান কী হবে!) চুক্কা চুক্কা লাগে!
_________________________________
<সযতনে বেখেয়াল>
ভারতীয় সীমান্তরক্ষী বাহিনীর কর্মকাণ্ড । বিএসএফ ক্রনিক্যালস ব্লগ
অরূপ ভাই, এগুলোর কথা শুনেছি, কিন্তু এখনো আস্থায় আনতে পারি নি বলে ব্যবহার করে দেখি নি। স্পেলচেকার ইউজ করা একটা লিটল ম্যাগাজিনের আউটপুট দেখে একবার আঁতকে উঠেছিলাম। হয়ত যিনি ব্যবহার করেছেন তিনি কাণ্ডজ্ঞান ঠিক রাখেন নি।
আপনাদেরটা হয়ে গেলে যদি ফ্রি কোনো ডামি কপি সচলায়তনে দেন, তো টেস্ট করে দেখব।
................................................................
আমার সমস্ত কৃতকর্মের জন্য দায়ী আমি বটে
তবে সহযোগিতায় ছিল মেঘ : আলতাফ হোসেন
..................................................................................
তোমার কাছে পৌঁছার একটাই পথ থাকা মানে হলো তোমারও বিকল্প আছে এই ধরাধামে
স্পেলচেকারটা কি খালি ইউনিবিজয়ে কাজ করবে নাকি জব্বারিজয়েও কাজ করবে ? ( ভয়ে বিজয় লিখি না , জব্বার ভাই নাকি উকিল নোটিশ পাঠিয়ে দেয় )
জব্বার আলীরও কিন্তু একখান স্পেল চেকার আছে
আমি ওটার প্রথম দিককার ক্রেতা
ওটা বানান শুদ্ধ করার চেয়ে অশুদ্ধ করে বেশি
ফরমেট ভেঙেও দেয়। তাছাড়া যতবার চেক করবেন ততবার ওটা প্রতিটা লাইনের আগে একটা করে স্পেস যোগ করে দেয়। তিনবার করলে প্রতি লাইনের আগে তিনটা স্পেস যুক্ত হয়ে যায়
এছাড়া ওটা সংখ্যা দেখলেই উল্টাপাল্টা আচরণ করে
আমি তার সাথে যোগাযোগ করে জানলাম তারা ওটা বানানোর পরে নিজেরাই কোনো চেক না করে বাজারে ছেড়ে দিয়েছেন আমার মতো বানান নিয়ে হাহুতাশ করা পাবলিকদের জন্য
ওটা ছিল বিজয় প্রো ২০০৬ কিন্তু
ওটার সাথে প্রো ২০০৬ ফন্ট কাজ করে না। কাজ করে বিজয় ২০০৩ ফন্ট
আমি যখন তাদেরকে জানালাম। তারা বললেন তারা বিষয়টা জানেন না। তবে হলেও হতে পারে। কারণ ওটা তৈরি করার সময় তারা ২০০৩ ফন্ট ব্যবহার করেছিলেন (মনে পড়লো আমি বলার পরে)
আমি ওটার লাইসেন্সধারী ক্রেতা হওয়ার কারণে ওটার সবগুলো আপডেট আমার পাওয়ার কথা
কিন্তু তারা বোধহয় এখনও কোনো আপডেট করেননি। কারণ তারা ব্যস্ত ইউনিকোড নিয়ে
...
তবুও আমার প্রথম বই ওটা দিয়েই চেক করা
ওটাতে সুবিধা ছিল ওটার মূল ডিকশনারি থেকে শব্দ ডিলিট করা যেত
আমি সবগুলো ডিলিট করে প্রায় ৫০ হাজার শব্দের একটা তালিকা করেছিলাম। কিন্তু ওটা সেভ হয় সি ড্রাইভে। কম্পিউটার ফর্মেট করলে আবার চলে যায় (বর্তমান শুদ্ধশব্দের প্রোগ্রাম চলে যায় কিন্তু শব্দতালিকা কপি করে পরে ইউজ করা যায়)
কয়েকবার ওটা নিয়ে কুস্তি করার পরে আমার প্রথম বইয়ে আকার ইকার জাতীয় দশ-বারোটা ভুল ওটা দিয়ে ধরতে পেরেছিলাম। যেগুলো চোখ ফাঁকি দিয়ে গেছে
এখন যেটা ইউজ করি সেটা অনেক ভালো। কিন্তু সমস্যা একটাই
একবার সি ফরমেট করলে ওটা গায়েব হয়ে যায়। আবার ইন্সটল করতে হলে ডেভেলপারকে ফোন করে পাসওয়ার্ড নিতে হয়
কিন্তু বহুদিন থেকে তাকে পাচ্ছি না ফোনে
এর মধ্যে আমার অফিসেরটা নাই হয়ে গেছে
বাসারটা এখনও আছে
বাট....
কম্পুকে কতদিন বিশ্বাস করা যায়...
অনেক কিছু জানতে পারলাম । আগামী পর্বের অপেক্ষায় থাকলাম। আশা করি আরো অনেক কিছু জানতে পারবো।
রবিন
এইটা বানানো হইলে আমার মতো বানান বিষারদরে উৎসর্গ করার প্রস্তাব করছি। কারণ সচলে এই জিনিস যাদের দরকার তাদের মাঝে প্রথম মানব আমি
ভুল সময়ের মর্মাহত বাউল
------------------------
ভুল সময়ের মর্মাহত বাউল
আবার জিগায়।
সম্ভবত একমত না।
কম্প্যুবিজ্ঞানীরা এর থেকে সহজ বই লিখতে পারলে সচলায়তনে কম্প্যুসাহিত্য নামে আলাদা কোন ক্যাটেগরি তৈরি হইতো ।
পোস্ট পড়ার পরে প্রতিক্রিয়া,
কম্প্যুবিজ্ঞানকে এইরকম তরল কইরা বোঝানোর জন্যে আপনারে ধাতব পদক দেয়ার দাবি জানাই।
এইটা যে কোন ধাতুই হইতে পারে।
আবার লিখবো হয়তো কোন দিন
- এইখানেও ধাঁতুঁ?
ধাতু ধাতু ক্যায়া হ্যায়, ইয়ে ধাতু ধাতু?
_________________________________
<সযতনে বেখেয়াল>
ভারতীয় সীমান্তরক্ষী বাহিনীর কর্মকাণ্ড । বিএসএফ ক্রনিক্যালস ব্লগ
ইংরেজি বানান ভুল হলে গুগল তা খুঁজে বের করে ঠিকই। কিন্তু বাংলা বানানের ভুল এখনও ধরতে পারে না...যেমন সচলায়তনের জায়গায় সচলায়তণ লিখে সার্চ দিলে ব্যাটা জিজ্ঞেস করে না "আপনি কি সচলায়তন খুঁজছেন?" এই ক্ষেত্রে আপনার গবেষণা বেশ কাজে দিবে।
---------------------------------
জ্ঞানীরা ভাবলেন খুব নাস্তানাবুদ করে ছাড়া গেছে...আআআহ...কি আরাম। বিশাল মাঠের একটি তৃণের সাথে লড়াই করে জিতে গেলেন।
ছোট্ট তৃণের জন্য অপরিসীম ঘৃণা।
বাহ্! দারুণ গবেষণা চলছে। এগিয়ে যাক সচল স্পেলচেক...
যতবার তাকে পাই মৃত্যুর শীতল ঢেউ এসে থামে বুকে
আমার জীবন নিয়ে সে থাকে আনন্দ ও স্পর্শের সুখে!
আপনার লেখাটি শেষ করে মুদ্রনে দিয়ে দিন ------- এভাবে পড়ে আগের অংশটি মনে থাকছে না ঠিক মত----- আবার বিষয়টিও জটিল (আমার মতন অধমের কাছে)------ লেখাটি তবু মনোযোগ দিয়ে পড়ে যাচ্ছি--------
.....................................................................................
সময়ের কাছে এসে সাক্ষ্য দিয়ে চ'লে যেতে হয়
কী কাজ করেছি আর কী কথা ভেবেছি..........
.....................................................................................
সময়ের কাছে এসে সাক্ষ্য দিয়ে চ'লে যেতে হয়
কী কাজ করেছি আর কী কথা ভেবেছি..........
আরে এ যে দেখি আলাদিনের দৈত্য। অন্যটাতে এই ফীচারের কথা ঠিকমত লিখতেও পারি নাই (আমি কি আর এইসব জানতাম নাকি
).... কয়েক ঘন্টার মধ্যে এই ফীচারযুক্ত পোস্ট হাজির!

________________________________
সমস্যা জীবনের অবিচ্ছেদ্য অংশ; পালিয়ে লাভ নাই।
________________________________
সমস্যা জীবনের অবিচ্ছেদ্য অংশ; পালিয়ে লাভ নাই।
আমার জানামতে বুয়েটের সি,এস,ই বিভাগের ২ জন পাইছে। এদের মধ্যে একজন নির্জন স্যার। নুথ ২ দশমিক ৫৬ ডলার দেন প্রাইজ হিসেবে। স্যারের চেকের ছবিটা এখানে দিলাম।
eru
-------------------------------------------------
সুগন্ধ বিলোতে আপত্তি নেই আমার
বস্তুত সুগন্ধ মাত্রই ছড়াতে ভালবাসে।
ঠিক আছে , আমাদের স্পেলচেকারে ভুল বের করতে পারলে আমরাও প্রতিটি ভুলের জন্য ২.৫৬ টাকা পুরষ্কার ঘোষনা করলাম ।
আমরা কি নূথের চাইতে কঞ্জুস নাকি ?
-----------------------------
কালের ইতিহাসের পাতা
সবাইকে কি দেন বিধাতা?
আমি লিখি সত্য যা তা,
রাজার ভয়ে গীত ভনি না।
আমি স্পেলচেকারের জন্যে একটি নাম প্রস্তাব করছি।
অক্ষরনিকষ।
হাঁটুপানির জলদস্যু
বুকে BOOK রেখে | বরাহশিকার ♪♫ | কালাইডোস্কোপ
নিকষ শব্দটা সুন্দর। তবে 'অক্ষরনিকষ' না হয়ে বোধকরি হওয়ার কথা 'শব্দনিকষ'। স্পেলচেকারটা তো আসলে চেক করবে শব্দের বানান, অক্ষরের নয়।
আরেকটা প্রস্তাব রাখা যায়। বইপত্রে বানানের যত ভুলভাল হয়, আমাদের দেশে তাকে ছাপাখানার ভূত বলার রেওয়াজ আছে। সে বিবেচনায় নাম রাখা যেতে পারে 'ভূত তাড়ানোর ওষুধ' ; যদিও ভাষার ব্যবহার ছাপাখানার মধ্যেই সীমাবদ্ধ নয়।
এ প্রস্তাবে কেউ না হাসলে বাঁচি।
................................................................
আমার সমস্ত কৃতকর্মের জন্য দায়ী আমি বটে
তবে সহযোগিতায় ছিল মেঘ : আলতাফ হোসেন
..................................................................................
তোমার কাছে পৌঁছার একটাই পথ থাকা মানে হলো তোমারও বিকল্প আছে এই ধরাধামে
শব্দের বানান তো ভুল হয় অক্ষর খাঁটি না হলেই :)।
হাঁটুপানির জলদস্যু
বুকে BOOK রেখে | বরাহশিকার ♪♫ | কালাইডোস্কোপ
নামটা খুবই দারুন।আমার পছন্দ হইল খুবব!
আর রাজামশাই যা কাজ করছেন! ওরে আল্লাহ!
সব পদক আপনাকেই দেয়া উচিত।
::একাকিত্বের বিলাস আমার অনেকদিনের সাধ::
::একাকিত্বের বিলাস আমার অনেকদিনের সাধ::
লেখকের শেষ নামের উচ্চারণ সম্ভবত কা-নূথ বা ক'নূথ (Ka-NOOTH.) সূত্র।
নুথই বলা হয় সচারচর। প্রোগ্রামিং এর উপর কয়েকটা ভলিউমে লেখা ওনার "Art of Computer Programming" কম্পিউটার সায়েন্সে ক্ল্যাসিক পর্যায়ে চলে গেছে । এছাড়া Concrete Mathematics এর উপর ওনার বই আছে। খুবই টাফ বইটা পড়া। বইয়ের মুখবন্ধে উনি বলেই নিয়েছেন ক্যাজুয়াল স্টুডেন্টরা যাতে বইটা না পড়ে। আমরা বুয়েটে লেভেল-৩,টার্ম-১ এ পড়েছিলাম। ঠেলাটা টের পাইছি। তবে নুথ লেখেন অসাধারন এবং ভদ্রলোক বোধহয় রসিকও একটু । বইয়ের বাম পার্শ্বের মার্জিনে অনেক মজার মজার কথা লেখা পেয়েছিলাম বইটিতে।
eru
-------------------------------------------------
সুগন্ধ বিলোতে আপত্তি নেই আমার
বস্তুত সুগন্ধ মাত্রই ছড়াতে ভালবাসে।
অ্যাঁ! এতো কাণ্ড!!
আমাদের চিন্তাই আমাদের আগামী: গৌতম বুদ্ধ
একটা ঘাড় ভাঙা ঘোড়া, উঠে দাঁড়ালো
একটা পাখ ভাঙা পাখি, উড়াল দিলো...
বাংলা স্পেল চেকিং নিয়ে UNESCO ফান্ডিং এ ব্র্যাক ইউনিভার্সিটিতে বেশ কিছুদিন কাজ হয়েছিল। ব্র্যাক ইউনিভার্সিটির সাইট ঘুরে সেটি নিয়ে কিছু খুজে পেলাম না। তবে আমার এক বন্ধু কাজ করত সেখানে। তার ওয়েব সাইটে ওই প্রজেক্ট এর কিছু পেপার আছে। ডাউনলোড করে দেখতে পারেন
http://www.naushadzaman.com/home#Publication
আগের মন্তব্যে একটি ভুল ছিল। ওই প্রজেক্ট এর ফান্ডিং করেছিল কানাডার International Development Research Corporation (IDRC)
আর ব্র্যাক ইউনিভার্সিটির প্রজেক্ট পেইজ খুজে পেয়েছি
http://www.bracuniversity.ac.bd/research/crblp/index.php
নতুন মন্তব্য করুন