আপনারা নিশ্চয় ইতিমধ্যেই গুগল সার্চ দিয়েই দেখেছেন যে পাতার লিঙ্কের পাশে Cached - Similar ইত্যাদি দুটি বাড়তি লিঙ্ক দেখা যাচ্ছে। নিচের ছবির মতো -
কি এই Cached লিঙ্ক? বিশেষ কিছুই তেমন নয়, গুগল রোবট যেকোনো ওয়েবসাইটে গেলেই সেই পাতার একটি স্ন্যাপশট জাতীয় নিয়ে রাখে এবং তা গুগলের নিজস্ব সার্ভারে সযত্নে রক্ষিত থাকে। পরে যদি সেই ওয়েবমাস্টার সেই পাতাকে আপডেট করেন, তাহলেও গুগল রোবটের নেওয়া স্ন্যাপশট এই Cached লিঙ্ক ক্লিক করলেই পুরোনো পাতার সংরক্ষিত পাতাটি দেখা যাবে। কেউ চাইলেই আপডেট করার আগের পাতাটি দেখতে পারবেন।
কিন্তু ধরুন যদি আপনি চাইছেন গুগল যেন তার সার্ভারে আপনার কষ্টের কাজের কোনো পাতাই সংরক্ষণ না করে। সহজ একটি উধারন দিই। আপনি এটা চাইতেই পারেন যদি আপনি ঘন ঘন আপনার ওয়েবসাইট আপডেট করেন, যেমন ধরুন ক্রিকেট খেলার স্কোর দিয়ে একটি ব্লগ পোস্ট দিয়েছেন যার মধ্যে আপনি ক্রমশ আপডেট করে চলেছেন সারাদিন ধরে, সেক্ষত্রে আপনি তো চাইবেন যেন পুরোনো পাতা গুগল সার্ভারে না থাকে, তাইনা? এইরকম অনেকের অনেক কারন থাকতে পারে, এবং যেকোনো ওয়েবমাস্টার/ব্লগার চাইতে পারেন যেন গুগল তাদের সাইট/ব্লগের কোনো পাতাকেই Cache না করে রাখে।
কিভাবে গুগল রোবটকে জানাবেন এই কাজ করা থেকে বিরত থাকতে? সামান্য একটি মেটা ট্যাগ দিয়েই তা করা যাবে। meta content='noarchive' name='robots' এই ট্যাগ ব্যাবহার করলেই যেকোনো সার্চ ইঞ্জিন রোবট আপনার ব্লগ/সাইট পাতাকে Cache করা থেকে বিরত থাকবে। তবে, কেবল নির্দিষ্ট একটি দুটি রোবটকে এই নির্দেশ দিতে গেলে উপরের মেটা ট্যাগে সেই রোবটের নাম লিখে দিতে হবে। ধরুন আপনি চাইছেন শুধুই গুগল রোবটকে মানা করতে, সেক্ষেত্রে এইভাবে লিখবেন - meta content='noarchive' name='Googlebot' এইভাবে লিখে দিতে হবে রোবটের নাম।
এর জন্য আপনাকে জানতে হবে বিভিন্ন সার্চ ইঞ্জিনের রোবটের এজেন্ট নেম। গুগল সার্চ রোবটের নাম যেমন Googlebot, তেমনি ছবি ইন্ডেক্স করে যে রোবট তার নাম Googlebot-Image, মোবাইল সার্চ ইন্ডেক্স রোবটের নাম Googlebot-Mobile, গুগল এডওয়ার্ডস রোবটের নামে Adsbot-Google, এলেক্সা রোবটের নামে ia-archiver, All-The-Web রোবট হচ্ছে fast-webcrawler, Altavista রোবট হচ্ছে scooter, Inktomi রোবটের নাম slurp@inktomi ইত্যাদি। (আমি যতোদূর জানি, এলেক্সা রোবটকে মানা করলেও সে সব ওয়েব পাতাকেই Cache করবে)
এইভাবে নিজের ওয়েবসাইট/ব্লগ লিঙ্ক সর্বদা আপডেট করে রাখুন। কেউ যেন পুরোনো রূপে দেখতে না পায়। (যথারীতি, ফ্রি ওয়ার্ডপ্রেস ইউজারদের জন্য এটা সম্ভব নয়)
*** কিছুদিন আগে হাজার হাজার ওয়েবমাস্টার/ব্লগার এর প্রয়োজনীয়তা টের পেয়েছিলেন। প্রায় কেঁদে ফেলেছিলেন অনেকেই। তাই এই পোস্ট দিলাম। একটি খবর প্রকাশ করে প্রচুর ওয়েবমাস্টার/ব্লগার আইনত ফেঁসে যেতে বসেছিলেন। কারন তাদের হদিশ পেয়ে গিয়েছিল আদালতে আবেদনকারীর উকিলরা, গুগল সার্চে এই Cache ফিচার দিয়েই। তারা ব্লগ থেকে আসল পোস্ট মুছে ফেললেও পুরোনো পোস্টের অবিকল নকল পাতা দেখা গিয়েছিল এই Cache দিয়ে। এই noarchive ব্যাপারে আগে জানলে তারা কেউ ধরা খেতেন না।