How to working with robots.txt

lahiruyasintha

Active member
  • Oct 11, 2010
    222
    61
    28
    ලංකාවේ
    how-to-use-robots-txt.png

    Website වල root directory එකේ තියෙන තවත් වැදගත් file එකක් තමයි robots.txt කියන text file එක. CMS එකක් භාවිතයෙන් web develop කරා නම් default මේ file එක තියෙනවා. නැතිනම් අපි manually මේක හදන්න ඕන.

    මේ file එකෙන් සාමාන්‍ය visitor කෙනෙක්ට ප්‍රයෝජනයක් නැති උනත් SEO වලදී ගොඩක් වැදගත් වෙනවා. Google, Yahoo, Bing වගේ search engine වලට තමන්ගේ search list එකට site එකේ access හදන්නේ මේ robots.txt file එකෙන්.

    Google වගේ search engine වලට web spiders/ web crawler කියලා Internet bot තියෙනවා. ඉතින් මේ web spiders ල internet එක පුරාම ගිහින් එක එක වෙබ් අඩවි වල අන්තර්ගතය අනුව තමන්ගේ search results database වලට ඒ ඒ web sites add කර ගන්නවා. මෙයාල site එකකට ගිහින් මුලින්ම කරන දේ තමයි මේ robots.txt file එකක් තියෙනවද කියල සොයා බලන එක. තියෙනවා නම් එකේ තියෙන commands වලට අනුව allowed area තමන්ගේ database එකට add කර ගන්නවා. disallow කරලා තියෙන area වලට යන්නේ නැහැ.

    දැන් ඔබට හිතේවි search engine එකකට disallow කරන area තියෙනවද කියලා. ඔව් අනිවාර්යයෙන්ම. ඇයි admin login, member login area, logged users ලට පමණක් දෙන contents.

    අපි බලමු ප්‍රධාන පෙලේ web site කිහිපයක robots.txt files:

    Google : https://www.google.lk/robots.txt
    Facebook : https://www.facebook.com/robots.txt
    Wikipedia : https://en.wikipedia.org/robots.txt

    Robots.txt ගැන යම් අවබෝධයක් ලැබෙන්න ඇති කියල හිතනවා. දැන් අපි බලමු මේ file එකේ commands ලියන්නේ කොහොමද කියලා. මේකෙ නිකන්ම text file එකක් එහෙමත් නැතිනම් notepad file එකක් පමණයි. ඉතින් notepad එක භාවිතයෙන් මේක ලියන්න පුළුවනි. සහ මේ file එක තියෙන්න ඕන root directory , cpanel file manager වල නම් domain public_html directory එකේ.


    • සම්පුර්ණ වෙබ් අඩවියේ සියලුම content read access Web Crawler ට ලබා දෙන්නේ මෙහෙමයි.
    PHP:
    User-agent: *
    Allow: /

    • Web Crawler ට සම්පුර්ණ site එක disallow කරන්නේ මෙහෙමයි.
    PHP:
    User-agent: *
    Disallow:  /

    feedburner එහෙම disallow කරපු site එකකට උදාහරණයක්.
    Ex: https://feedburner.google.com/robots.txt

    අපි ඒ site එක ගැන search කරාම search results ලැබෙන්නේ මෙහෙමයි.

    2i04320.jpg



    • අපි තෝරාගත් directory එකක් හෝ කිහිපයක් disallow කරන්නේ මෙහෙමයි.
    PHP:
    User-agent: *
    Disallow:  /folder_1/
    Disallow:  /folder_2/

    • තෝරාගනිපු file එකක් හෝ කිහිපයක් disallow කරන්නේ මෙහෙමයි.
    PHP:
    User-agent: *
    Disallow:  /sample_folder/test.php

    • අපි කැමති search engine bot කෙනෙක්ට පමණක් disallow කරන්නේ මෙහෙමයි. මම මෙතන Google Web Spider තෝරාගත්තා. දැනට භාවිතයේ ඉන්න active robots ල list එකක් මෙතන තියෙනවා. (http://www.robotstxt.org/db.html)
    PHP:
    User-agent: Googlebot
    Disallow: /

    Copyright © මගේ පරණ බ්ලොග් එකෙන් :yes: දැන් එකේ කෑලිත් නැහැ :rolleyes:

    Rep බාරගනු ලැබේ..