En effektiv Spider Block for WordPress

Hvis det ikke var for edderkopper, ville vi ikke kunne søke i Google for å finne webinnhold. Edderkopper er roboter som riper på nettet og indekserer alt de finner, slik at når du vil søke etter artikler på WordPress, vet den hvor de er, og kan lede deg til dem. Du trenger ikke å la en edderkoppindeks WordPress, og det er en enkel måte å lage en effektiv edderkoppblokk for WordPress som blokkerer edderkopper fra anerkjente selskaper. En enda mer effektiv edderkoppblokk inneholder noe oppsett og en prosess for å identifisere og blokkere dårlige edderkopper som ignorerer instruksjonene dine og indekser webinnhold du har angitt som utenforgrenser for edderkopper.

robots.txt

Når en edderkopp besøker ditt WordPress-nettsted, er det første som det skal gjøre, å lese filen "robots.txt". Denne filen inneholder regler som spesifiserer filene og katalogene som enten kan eller ikke kan indekseres av alle edderkopper eller individuelt navngitte edderkopper. En edderkopp finner sin unike "brukeragent" -kode i filen eller et wildcard som indikerer "alle edderkopper". Det leser deretter listen over filer og kataloger som enten er tillatt eller ikke tillatt. Deretter begynner det å indeksere bare deler av nettstedet som det er lov å indeksere.

Blokkerende edderkopper

Du kan opprette en effektiv edderkoppblokk for WordPress ved å opprette en "robots.txt" -fil i WordPress-rotkatalogen og angi en regel som ikke tillater indeksering av rotkatalogen på nettstedet. Dette forkaster automatisk indeksering av noen underkatalog for roten. I filen bør du også spesifisere at denne regelen gjelder for alle kodeordene for spider brukeragenter. Hver edderkopp som besøker nettstedet ditt, bør lese filen og gå uten å indeksere noen del av nettstedet ditt. For eksempel skal filen "robots.txt" se ut som:

Brukeragent: * Tillat: /

Gode ​​og dårlige edderkopper

Det er gode edderkopper, og det er dårlige edderkopper. Gode ​​edderkopper er fra anerkjente selskaper som Google, Yahoo eller Microsoft og adlyder reglene i "robots.txt" -filen din. Dårlige edderkopper er fra enkeltpersoner eller selskaper som forsettlig ignorerer "robots.txt" -filen og potensielt indekserer hele innholdet på nettstedet ditt uavhengig av hva du tillater eller tillater. Disse robotene søker etter hvert etter spesifikk informasjon, for eksempel e-postadresser, å selge til spammere, eller personlig informasjon om brukere, for å selge til andre selskaper. Edderkoppene skure hele nettstedet ditt, ser etter informasjon eller innhold som du ikke har skjult eller beskyttet riktig. Ulike webmastere har forskjellige måter å håndtere med rogue edderkopper. Noen prøver bare å identifisere hvem de er og blokkere dem fra å indeksere innhold på nettstedet. Andre forsøker å forårsake skade ved å forgiftge edderkoppens database med falsk informasjon eller ved å lure edderkoppen inn i en endeløs sløyfe som enten gjør at den slutter eller avbrytes.

Honningkrukke

En honeypot eller tarpit er en teknikk som brukes av noen webmastere til å identifisere rogue edderkopper, slik at de kan blokkeres. Du kan opprette en honeypot ved å bare legge til en katalog som inneholder falskt innhold, for eksempel e-postadresser, og spesifikt forkaste den katalogen i "robots.txt" -filen. Serverloggene vil fortelle deg hvilke edderkopper som har tilgang til katalogen, og du kan registrere deres brukeragentstreng og IP-adresse. Med den informasjonen kan du opprette regler i WordPress "htaccess" -filen som nekter tilgang til disse rogue edderkoppene. Honeypoten må regelmessig kontrolleres for å fange nye rogue roboter fra å få tilgang til nettstedet ditt.

Populære Innlegg