Robots.txt Disallow: kako ustvariti, funkcije in priporočila

Pridobivanje na tečajih o SEO-promociji se začetniki srečujejo z zelo razumljivimi in ne zelo natančnimi izrazi. Pri tem vseeno ni tako enostavno razumeti, še posebej, če je eden od elementov sprva slabo razložen ali zgrešen. Razmislite o vrednosti v datoteki robots.txt Disallow, za katero potrebujete ta dokument, kako jo ustvariti in delati z njo.

Vsebina

V preprostih besedah
Standard
Zemljevid strani
Uporabi
Za kaj?
Direktive
Vizitka
Prepoved
Resolucija
Ogledala
Navigator
Dodatne ukaze
Univerzalni
Napake
Sklepi

V preprostih besedah

Da se bralcu ne bi "hranili" s kompleksnimi razlagami, ki se običajno pojavijo na specializiranih spletnih mestih, je bolje, da vse pojasnite "na prstih". Robot za iskanje prihaja na vašo spletno stran in indeksira strani. Po tem boste videli poročila, ki kažejo težave, napake itd. roboti txt ne dovolijo

Toda na spletnih straneh obstajajo tudi takšne informacije, ki za statistiko niso obvezne. Na primer stran »O podjetju« ali »Kontakti«. Vse to ni potrebno za indeksiranje in v nekaterih primerih nezaželeno, ker lahko izkrivlja statistične podatke. Če želite zagotoviti, da se to ne zgodi, je bolje, da te strani zapirate od robota. To je tisto, kar potrebuje ukaz v datoteki za onemogočanje robots.txt.

Standard

Ta dokument je vedno na spletnih mestih. Njeno kreacijo obdelujejo razvijalci in programerji. Včasih lastniki virov to lahko storijo, še posebej, če je majhen. V tem primeru delo z njim ne traja veliko časa.

Robots.txt se imenuje izključitveni standard za pajka. Predstavljen je dokument, v katerem so predpisane glavne omejitve. Dokument je v korenu virov. V tem primeru, tako da ga lahko najdete na poti "/robots.txt". Če ima vir več poddomenov, se ta datoteka nahaja v korenu vsakega od njih. Standard je nenehno povezan z drugimi - zemljevidi spletnega mesta.

Zemljevid strani

Če želite razumeti celotno sliko tega, kar je v igri, je nekaj besed o zemljevidih spletnega mesta. To je datoteka, zapisana v XML. Shrani vse podatke o viru za MS. V skladu z dokumentom lahko izveste o spletnih straneh, ki jih indeksirajo roboti. zavrni robotske txt direktive

Datoteka daje PS hiter dostop do katere koli strani, prikazuje najnovejše spremembe, njihovo pogostost in pomen. Zaradi teh meril robot skenira spletno mesto. Pomembno pa je razumeti, da prisotnost takšne datoteke ne daje zaupanja, da bodo vse strani indeksirane. Bolj je namig v proces.

Uporabi

Pravilna datoteka robots.txt se uporablja prostovoljno. Standard se je pojavil leta 1994. Konzorcij W3C ga je sprejel. Od takrat naprej se uporablja v skoraj vseh iskalnikih. Potreben je za "dozirano" popravljanje skeniranja virov s strani iskalnega robota. Datoteka vsebuje niz navodil, ki uporabljajo MS.

Zahvaljujoč nizu orodij je enostavno namestiti datoteke, strani in imenike, ki jih ni mogoče indeksirati. Robots.txt opozarja tudi na takšne datoteke, ki jih je treba takoj preveriti.

Za kaj?

Kljub dejstvu, da se datoteka dejansko lahko uporablja prostovoljno, jo skoraj vsa spletna mesta ustvarjajo. To je potrebno za racionalizacijo dela robota. V nasprotnem primeru bo preveril vse strani v naključnem zaporedju, poleg tega pa lahko preskoči nekaj strani, ustvari znatno obremenitev vira.

Tudi datoteka se uporablja za skrivanje od oči iskalnika:

Strani z osebnimi podatki obiskovalcev.
Strani, na katerih obstajajo oblike pošiljanja podatkov itd.
Spletna mesta - ogledala.
Strani z rezultati iskanja.

Robots txt user agent disallow

Če ste za določeno stran določili Neuspešno v robots.txt, obstaja verjetnost, da se bo še vedno pojavil v SERP-u. Ta možnost se lahko pojavi, če je povezava s takšno stranjo postavljena na enega od zunanjih virov ali znotraj vaše strani.

Direktive

Če govorimo o prepovedi iskalnika, pogosto uporabimo pojem "direktiva". Ta izraz je znan vsem programerjem. Pogosto jo nadomesti sinonim za "indikacijo" in se uporablja skupaj z "ukazi". Včasih ga lahko predstavlja niz konstrukcij programskega jezika.

Direktiva o prepovedi v robots.txt je ena najpogostejših, vendar ne edina. Poleg nje je še nekaj, ki so odgovorni za določene smeri. Na primer, obstaja uporabniški agent, ki prikazuje robote iskalnika. Dovoli je nasprotni ukaz Disallow. Označuje dovoljenje za skeniranje nekaterih strani. Nato poglejmo glavne ukaze bolj podrobno.

Vizitka

Seveda uporabniškega posrednika robots.txt Disallow ni edina direktiva, temveč ena najpogostejših. To so tiste, ki sestavljajo večino datotek za majhne vire. Vizitka za kateri koli sistem je še vedno ukaz uporabniškega posrednika. To pravilo je namenjeno usmerjanju na robote, ki si ogledujejo navodila, ki bodo zapisana kasneje v dokumentu.

Zdaj je 300 iskalnih robotov. Če želite, da vsak od njih sledi določeni indikaciji, jih ne bi smeli predelati skoraj malo verjetno. Zadostuje, da podate "Uporabniški agent: *". V tem primeru »zvezdica« bo prikazala sisteme, za katere so izračunana naslednja pravila za vse iskalnike.

Če ustvarite navodila za Google, morate določiti ime robota. V tem primeru uporabite Googlebot. Če dokument določa samo to ime, ostali iskalniki ne bodo sprejeli ukazov datoteke robots.txt: Disallow, Allow, itd. Predlagali bodo, da je dokument prazen in da za njih ni navodil. zavrne robote txt prepovedati indeksiranje

Celoten seznam imen botov lahko najdete na internetu. To je zelo dolgo, zato, če potrebujete navodila za določene Googlove storitve ali Yandex, boste morali določiti specifična imena.

Prepoved

O naslednji ekipi smo že večkrat rekli. Disallow samo opozarja, katere informacije ne sme brati robot. Če želite iskalniku prikazati vso svojo vsebino, potem samo napišite "Disallow:". Zato bodo roboti pregledali vse strani vašega vira.

Popolna prepoved indeksiranja v robots.txt "Disallow: /". Če pišete tako, potem roboti sploh ne bodo skenirali resursa. Običajno se to naredi v začetnih fazah, pri pripravah na začetek projekta, poskusih itd. Če je spletno mesto že pripravljeno, da se prikaže, potem spremenite to vrednost, tako da jo uporabniki lahko spoznajo.

Na splošno je ekipa univerzalna. Lahko blokira določene elemente. Na primer, mapa z ukazom "Disallow: / papka /" lahko zavrne povezavo, datoteko ali dokumente določenega dovoljenja za skeniranje.

Resolucija

Če želite robotu omogočiti ogled določenih strani, datotek ali imenikov, uporabite direktivo Dovoli. Včasih je potrebno, da robot obišče datoteke iz določenega oddelka. Na primer, če je to spletna trgovina, lahko določite imenik. Preostale strani ne bodo skenirane. Vendar ne pozabite, da morate najprej preprečiti, da bi spletno mesto ogledalo vso vsebino in po določitvi ukaza »Dovoli« z odpiranjem strani. kar pomeni prepovedati v robotih txt

Ogledala

Druga direktiva o gostitelju. Vse spletne skrbniki ne uporabljajo. Potrebno je, če ima vaš vir ogledala. Nato je to pravilo obvezno, saj označuje robot "Yandex", na katerem od glavnih je ogledalo, in kaj je treba skenirati.

Sistem se ne izgubi samostojno in zlahka najde zahtevani vir v skladu z navodili, ki so opisana v robots.txt. V sami datoteki je spletno mesto registrirano brez navedbe »http: //«, vendar le, če deluje na HTTP. Če uporablja protokol HTTPS, je ta predpono podana. Na primer: "Host: site.com", če HTTP ali "Host: https://site.com" v primeru HTTPS.

Navigator

O zemljevidu smo že govorili, ampak kot ločeno datoteko. Če pogledamo pravila pisanja robots.txt s primeri, vidimo uporabo takega ukaza. Datoteka je označena z "Sitemap: https://site.com/sitemap.xml". To storite tako, da zagotovite, da robot preveri vse strani, ki so navedene na zemljevidu. Vsakič, ko se vračate, bo robot pregledal nove posodobitve, spremembe, ki so bile narejene in hitrejše pošiljanje podatkov v iskalnik.

Dodatne ukaze

To so bile glavne smernice, ki kažejo pomembne in potrebne ukaze. Obstaja manj uporabnih in ne vedno uporabnih navodil. Na primer, zakasnitev zakasnitve določa obdobje, ki se bo uporabljalo med obremenitvami strani. To je potrebno za šibke strežnike, da jih ne bi "vdrli" v invazijo robotov. Za določitev parametra se uporabljajo sekunde.

Clean-param pomaga preprečiti podvajanje vsebine, ki se nahaja na različnih dinamičnih naslovih. Nastanejo, če obstaja funkcija sortiranja. Takšen ukaz bo videti takole: "Clean-param: ref / catalog / get_product.com".

Univerzalni

Če ne veste, kako ustvariti pravi robots.txt, to ni zastrašujoče. Poleg navodil obstaja tudi univerzalna možnost za to datoteko. Lahko jih postavite na skoraj vsako spletno mesto. Izjema lahko postane glavni vir. Toda v tem primeru morajo strokovnjaki vedeti o spisu, v njej pa bi morali sodelovati posebni ljudje. kako ustvariti prave robote txt

Univerzalni niz direktiv vam omogoča, da odprete vsebino spletnega mesta za indeksiranje. Obstaja registracija gostitelja in označen je zemljevid. Roboti omogočajo, da vedno obiščejo strani, ki so potrebne za skeniranje.

Ulov je, da se podatki lahko razlikujejo glede na sistem, na katerem se nahaja vaš vir. Zato je treba izbrati pravila, ki jih je treba gledati na vrsto spletnega mesta in CMS. Če niste prepričani, da je datoteka, ki ste jo ustvarili, pravilna, lahko preverite v Googlovem spletnem orodju in »Yandex«.

Napake

Če razumete, kaj Disallow pomeni v robots.txt, to ne zagotavlja, da se pri ustvarjanju dokumenta ne boste motili. Obstajajo številni pogosti problemi, do katerih izkušeni uporabniki nimajo izkušenj.

Vrednosti direktive so pogosto zmedene. To je morda posledica nesporazuma in nepoznavanja navodil. Morda je uporabnik samo spregledal in neutrudno pomešal. Na primer, lahko uporabijo vrednost "/" za uporabniškega posrednika in za ime robota za Disallow.

Ponovitev je še ena pogosta napaka. Nekateri uporabniki verjamejo, da je treba zaporedno zaporedje zaporednih zabeleženih strani, datotek ali map zaporedno navesti. Pravzaprav, za vsako prepovedano ali dovoljeno povezavo, datoteko in mapo, morate znova napisati ukaz in novo linijo.

Napake lahko povzroči napačno ime datoteke samega. Ne pozabite, da se imenuje »robots.txt«. Uporabite spodnji stolpec za ime brez sprememb tipa "Robots.txt" ali "ROBOTS.txt". roboti txt pravila s primeri

Polje User-agent je vedno treba izpolniti. Ne puščajte te direktive brez ukaza. Še enkrat vračamo v gostitelja, ne pozabite, da če spletno mesto uporablja protokol HTTP, ga v ukazu ni treba navesti. Samo, če je razširjena različica HTTPS. Direktive Disallow ne morete zapustiti brez vrednosti. Če je ne potrebujete, ga ne določite.

Sklepi

Če povzamemo, je treba omeniti, da je robots.txt standard, ki zahteva natančnost. Če niste nikoli naleteli na to, potem boste na prvih stopnjah ustvarjanja imeli veliko vprašanj. To delo je bolje dati spletnim skrbnikom, saj ves čas delajo z dokumentom. Poleg tega lahko pride do sprememb v zaznavanju direktiv s strani iskalnikov. Če imate majhno spletno stran - majhno spletno trgovino ali blog - potem je dovolj, da preučite to vprašanje in uporabite enega od univerzalnih primerov.

Zdieľať na sociálnych sieťach:

Príbuzný