بِسْــــــــــــــــــمِ اﷲِالرَّحْمَنِ اارَّحِيم
অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।
অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।
Robots.txt কি ???
ওয়েব
রোবট (Robots.txt) ফাইল বলতে বুঝায় এমন একটি ফাইল যা গুগল সার্চ ইঞ্জিনকে
বা বিভিন্ন ধরনের রোবটদের বলে দেয় কোন কোন ডাইরেক্টরি সে crawl করতে
পারবে আর কোনটা সে crawl করতে পারবে না।
যেমন মনে করেন Robots.txt ফাইলে যদি নীচের মত করে লিখি তবে কোন রোবট এই ডাইরেক্টরিকে crawl করতে পারবে না।
Disallow: /wp-admin/
Robots.txt ফাইল কেন প্রয়োজন ???
সার্চ
ইঞ্জিন অপটিমাইজেশনের জন্য Robots.txt ফাইল অনেক গুরুত্বপূর্ণ একটি জিনিস।
এর মাধ্যমেই গুগল সার্চবট বুঝে নেয় কোন কোন পেজ ইনডেক্স করতে হবে আর
কোনটি করতে হবে না। এছাড়াও এটা করলে সাইটের সিকিউরিটিও বৃদ্ধি পায়। যারা।
সেই সব হ্যাকার বটের মাধ্যমে সাইটকে হ্যাক করার চেষ্টা করে তাদের থেকে
সুরক্ষা দিবে।
Robots.txt ফাইলের সংকেত বা শব্দ
Robots.txt ফাইলে কিছু কমন সংকেত বা শব্দ থাকে তা নিচে আলোচনা করা হলঃ
সংকেত বা শব্দ | বর্ণনা |
User-agent: | রোবট সমূহকে নির্দেশ করে। |
* | User-agent: * এর মানে সকল প্রকার রোবট। |
Allow: | লাইনে শুরুতে Allow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা রোবট crawl করবে।বিঃদ্রঃ একটি পারফেক্ট Robots.txt ফাইলে Allow: না ব্যবহার করাই ভাল। |
Disallow: | লাইনে শুরুতে Disallow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা কোন রোবট crawl করবে না।বিঃদ্রঃ যদি Disallow: এর পর কোন Path বা Directory না দেওয়া হয় তবে Disallow: কাজ করবে Allow এর। |
# | কমেন্ট লেখার জন্য ব্যবহার করা হয় এই চিহ্নটি। মানে কোড গুলো কোন বিষয়ক তা বুঝা যায়।বিঃদ্রঃ Robots.txt ফাইলে কমেন্ট না ব্যবহার করা উত্তম। |
User-agent: ও Robots নিয়ে বিস্তারিত
Robots.txt
ফাইল তৈরিতে প্রথমেই এসে User-agent: কথা। User-agent: বলতে ব্যবহারকারীকে
বুঝি মানে যারা যারা এই সাইটটি পরিদর্শন করবে যেমনঃ সাধারন মানুষ, গুগল
বট, গুগল বট ইমেজ, ইয়াহু এমন আরও অনেকে।
Robots.txt ফাইলের প্রথমেই
বলে দিতে হয় কোন ব্যবহারকারীদের জন্য নীচের Disallow: গুলো প্রযোজ্য হবে।
ব্যবহারকারী বলতে নির্দিষ্ট কিছু সার্চ Robots ও বিভিন্ন বটের বিশেষ কিছু
অংশকে বুঝায় যেমনঃ User-agent: Googlebot-Image এখানে Googlebot-Image
কিন্তু কোন Robots না। এটা গুগল বটের একটি নির্দিষ্ট অংশ। আসেন কিছু
জনপ্রিয় সার্চ Robots ও বিভিন্ন বটের নির্দিষ্ট অংশের সাথে পরিচিত হই।
সার্চ Robots দের নাম | Robots.txt ফাইলে ব্যবহিত শব্দ |
googlebot | |
MSN Search | msnbot |
Yahoo | yahoo-slurp |
Alexa/Wayback | ia_archiver |
Ask/Teoma | teoma |
Cuil | twiceler |
GigaBlast | gigabot |
Scrub The Web | scrubby |
DMOZ Checker | robozilla |
Nutch | nutch |
Baidu | baiduspider |
এবার আসুন বিভিন্ন বটের বিশেষ কিছু অংশের সাথে পরিচিত হইঃ
বটের বিশেষ অংশের নাম | Robots.txt ফাইলে ব্যবহিত শব্দ |
Google Image | googlebot-image |
Google Mobile | googlebot-mobile |
Yahoo MM | yahoo-mmcrawler |
Yahoo Blogs | yahoo-blogs/v3.9 |
MSN PicSearch | psbot |
SingingFish | asterias |
Disallow বা Allow অংশ
Robots.txt ফাইল দ্বারা যা Disallow করা হবে / এর পর সম্পূর্ণ URL বা ডাইরেক্টরি নাম দিতে হবে। যেমনঃ
1
2
3
4
5
| Disallow: /wp-admin/ Disallow: /index.php Disallow: /www.moumachibd.com/contact |
যদি ওয়েব সাইটের কোন নির্দিষ্ট URL কে Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
| Disallow: /www.moumachibd.com/contact |
যদি ওয়েব সাইটের পেজ, ট্যাগ, আর্কাইভ, ফিড, ক্যাটাগরি ইত্যাদি Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
2
3
4
5
6
7
| Disallow: /page/ Disallow: /tag/ Disallow: /feed/ Disallow: /archives/ |
যদি ওয়েব সাইটের কোন নির্দিষ্ট এক্সটেনশন এর সকল ফাইল Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
2
3
4
5
| Disallow: /*.php$ Disallow: /*.xhtml$ Disallow: /*.css$ |
ওয়ার্ডপ্রেস
ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম এটা ব্যবহার
করতে পারেন। নীচের লেখা গুলো কপি করে নোট প্যাডে পেস্ট করুন এবং robot.txt
নামে সেভ করুন। এরপর ফাইলটি আপনার সার্ভারের রুট ডাইরেক্টরিতে আপলোড করুন।
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
| Sitemap: < a target = "_blank" href = "http://www.yourdomain.com/sitemap.xml.gz" onclick = "javascript:_gaq.push(['_trackEvent','outbound-article','http://www.yourdomain.com/sitemap.xml.gz']);" >http://www.yourdomain.com/sitemap.xml.gz</ a > User-agent: Googlebot-Image Disallow: User-agent: Mediapartners-Google* Disallow: User-agent: Googlebot Disallow: /*? Disallow: /*?* Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /*.xhtml$ User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Disallow: /trackback/ Disallow: /feed/ Disallow: /index.php |
উপরের
Sitemap এ আপনার সাইটের সাইটম্যাপ দিন। এছাড়া যারা এসইও র জন্য পেজ,
ট্যাগ বা আর্কাইভ, ক্যাটাগরি Disallow দিতে করতে চান তারা উপরের লেখা টুকুর
সাথে নীচের অংশ টুকু অ্যাড করে দিন।
1
2
3
4
5
| Disallow: /page/ Disallow: /tag/ Disallow: /archives/ |
আপনার সাইটের Robots.txt ফাইলটি আপনি খুব সহজেই দেখতে পারেন বা অন্য কেউ দেখতে পারবে। এজন্য www.yourdomain.com/robotx.txt (YourDomain এর জায়গায় আপনার সাইটের নাম দিবেন) দিলেই হবে।
আপনার ওয়েব সাইটের Robots.txt ফাইলটি সঠিক হয়েছে কিনা তা পরীক্ষা করার জন্য http://tool.motoricerca.info/robots-checker.phtml
এই সাইটটি ব্যবহার করতে পারেন। আপনার সাইটের Robots.txt ফাইলটি যদি সঠিক
হয়ে থাকে তবে নীচের লোগোর মত একটি ভ্যালিড লোগো দিবে আপনাকে। চাইলে এটা
আপনার সাইটে ব্যবহার করতে পারেন। আর যদি কোন ভুল থাকে তবে তা দেখাবে।
আপনার সাইটের Robots.txt তৈরিতে যদি কোন সমস্যা হয় তবে জানাতে পারেন।
ধন্যবাদ।