Showing posts with label ওয়েব ডেভেলপমেন্ট. Show all posts
Showing posts with label ওয়েব ডেভেলপমেন্ট. Show all posts

Monday 12 March 2012

Robots.txt ফাইল তৈরির সঠিক উপায়।

                    بِسْــــــــــــــــــمِ اﷲِالرَّحْمَنِ اارَّحِيم 


অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।
Robots.txt কি ???

ওয়েব রোবট (Robots.txt) ফাইল বলতে বুঝায় এমন একটি ফাইল যা গুগল সার্চ ইঞ্জিনকে বা বিভিন্ন ধরনের রোবটদের বলে দেয় কোন কোন ডাইরেক্টরি সে crawl করতে পারবে আর কোনটা সে crawl করতে পারবে না।
যেমন মনে করেন Robots.txt ফাইলে যদি নীচের মত করে লিখি তবে কোন রোবট এই ডাইরেক্টরিকে crawl করতে পারবে না।
Disallow: /wp-admin/
Robots.txt ফাইল কেন প্রয়োজন ???

সার্চ ইঞ্জিন অপটিমাইজেশনের জন্য Robots.txt ফাইল অনেক গুরুত্বপূর্ণ একটি জিনিস। এর মাধ্যমেই গুগল সার্চবট বুঝে নেয় কোন কোন পেজ ইনডেক্স করতে হবে আর কোনটি করতে হবে না। এছাড়াও এটা করলে সাইটের সিকিউরিটিও বৃদ্ধি পায়। যারা। সেই সব হ্যাকার বটের মাধ্যমে সাইটকে হ্যাক করার চেষ্টা করে তাদের থেকে সুরক্ষা দিবে।
Robots.txt ফাইলের সংকেত বা শব্দ

Robots.txt ফাইলে কিছু কমন সংকেত বা শব্দ থাকে তা নিচে আলোচনা করা হলঃ
সংকেত বা শব্দবর্ণনা
User-agent:রোবট সমূহকে নির্দেশ করে।
*User-agent: * এর মানে সকল প্রকার রোবট।
Allow:লাইনে শুরুতে Allow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা রোবট crawl করবে।বিঃদ্রঃ একটি পারফেক্ট Robots.txt ফাইলে Allow: না ব্যবহার করাই ভাল।
Disallow:লাইনে শুরুতে Disallow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা কোন রোবট crawl করবে না।বিঃদ্রঃ যদি Disallow: এর পর কোন Path বা Directory না দেওয়া হয় তবে Disallow: কাজ করবে Allow এর।
#কমেন্ট লেখার জন্য ব্যবহার করা হয় এই চিহ্নটি। মানে কোড গুলো কোন বিষয়ক তা বুঝা যায়।বিঃদ্রঃ Robots.txt ফাইলে কমেন্ট না ব্যবহার করা উত্তম।
User-agent: ও Robots নিয়ে বিস্তারিত

Robots.txt ফাইল তৈরিতে প্রথমেই এসে User-agent: কথা। User-agent: বলতে ব্যবহারকারীকে বুঝি মানে যারা যারা এই সাইটটি পরিদর্শন করবে যেমনঃ সাধারন মানুষ, গুগল বট, গুগল বট ইমেজ, ইয়াহু এমন আরও অনেকে।
Robots.txt ফাইলের প্রথমেই বলে দিতে হয় কোন ব্যবহারকারীদের জন্য নীচের Disallow: গুলো প্রযোজ্য হবে। ব্যবহারকারী বলতে নির্দিষ্ট কিছু সার্চ Robots ও বিভিন্ন বটের বিশেষ কিছু অংশকে বুঝায় যেমনঃ User-agent: Googlebot-Image এখানে Googlebot-Image কিন্তু কোন Robots না। এটা গুগল বটের একটি নির্দিষ্ট অংশ। আসেন কিছু জনপ্রিয় সার্চ Robots ও বিভিন্ন বটের নির্দিষ্ট অংশের সাথে পরিচিত হই।
সার্চ Robots দের নামRobots.txt ফাইলে ব্যবহিত শব্দ
Google googlebot
MSN Search msnbot
Yahoo yahoo-slurp
Alexa/Wayback ia_archiver
Ask/Teoma teoma
Cuil twiceler
GigaBlast gigabot
Scrub The Web scrubby
DMOZ Checker robozilla
Nutch nutch
Baidu baiduspider
এবার আসুন বিভিন্ন বটের বিশেষ কিছু অংশের সাথে পরিচিত হইঃ
বটের বিশেষ অংশের নামRobots.txt ফাইলে ব্যবহিত শব্দ
Google Image googlebot-image
Google Mobile googlebot-mobile
Yahoo MM yahoo-mmcrawler
Yahoo Blogs yahoo-blogs/v3.9
MSN PicSearch psbot
SingingFish asterias
Disallow বা Allow অংশ

Robots.txt ফাইল দ্বারা যা Disallow করা হবে / এর পর সম্পূর্ণ URL বা ডাইরেক্টরি নাম দিতে হবে। যেমনঃ
1
2
3
4
5
Disallow: /wp-admin/
Disallow: /index.php
Disallow: /www.moumachibd.com/contact
যদি ওয়েব সাইটের কোন নির্দিষ্ট URL কে Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
Disallow: /www.moumachibd.com/contact
যদি ওয়েব সাইটের পেজ, ট্যাগ, আর্কাইভ, ফিড, ক্যাটাগরি ইত্যাদি Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
2
3
4
5
6
7
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: /archives/
যদি ওয়েব সাইটের কোন নির্দিষ্ট এক্সটেনশন এর সকল ফাইল Disallow করতে হয় তবে নীচের মত লিখতে হবে
1
2
3
4
5
Disallow: /*.php$
Disallow: /*.xhtml$
Disallow: /*.css$
ওয়ার্ডপ্রেস ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম এটা ব্যবহার করতে পারেন। নীচের লেখা গুলো কপি করে নোট প্যাডে পেস্ট করুন এবং robot.txt নামে সেভ করুন। এরপর ফাইলটি আপনার সার্ভারের রুট ডাইরেক্টরিতে আপলোড করুন।
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Sitemap: <a target="_blank" href="http://www.yourdomain.com/sitemap.xml.gz" onclick="javascript:_gaq.push(['_trackEvent','outbound-article','http://www.yourdomain.com/sitemap.xml.gz']);">http://www.yourdomain.com/sitemap.xml.gz</a>
User-agent: Googlebot-Image
Disallow:
User-agent: Mediapartners-Google*
Disallow:
User-agent: Googlebot
Disallow: /*?
Disallow: /*?*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.xhtml$
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /index.php
উপরের Sitemap এ আপনার সাইটের সাইটম্যাপ দিন। এছাড়া যারা এসইও র জন্য পেজ, ট্যাগ বা আর্কাইভ, ক্যাটাগরি Disallow দিতে করতে চান তারা উপরের লেখা টুকুর সাথে নীচের অংশ টুকু অ্যাড করে দিন।
1
2
3
4
5
Disallow: /page/
Disallow: /tag/
Disallow: /archives/
আপনার সাইটের Robots.txt ফাইলটি আপনি খুব সহজেই দেখতে পারেন বা অন্য কেউ দেখতে পারবে। এজন্য www.yourdomain.com/robotx.txt (YourDomain এর জায়গায় আপনার সাইটের নাম দিবেন)  দিলেই হবে।
আপনার ওয়েব সাইটের Robots.txt ফাইলটি সঠিক হয়েছে কিনা তা পরীক্ষা করার জন্য http://tool.motoricerca.info/robots-checker.phtml এই সাইটটি ব্যবহার করতে পারেন। আপনার সাইটের Robots.txt ফাইলটি যদি সঠিক হয়ে থাকে তবে নীচের লোগোর মত একটি ভ্যালিড লোগো দিবে আপনাকে। চাইলে এটা আপনার সাইটে ব্যবহার করতে পারেন। আর যদি কোন ভুল থাকে তবে তা দেখাবে।
Valid Robots.txt
আপনার সাইটের Robots.txt তৈরিতে যদি কোন সমস্যা হয় তবে জানাতে পারেন।
ধন্যবাদ।