En effektiv Spider Block til WordPress

Hvis det ikke var for edderkopper, ville vi ikke kunne søge i Google for at finde webindhold. Edderkopper er robotter, der skure på internettet og indekserer alt, hvad de finder, så når du vil søge efter artikler om WordPress, ved det, hvor disse artikler er og kan henvise dig til dem. Du behøver dog ikke at lade et spider indeks WordPress, og der er en nem måde at oprette en effektiv spiderblok til WordPress, der blokerer edderkopper fra anerkendte virksomheder. En endnu mere effektiv spindelblok indeholder nogle opsætninger og en proces til at identificere og blokere onde edderkopper, der ignorerer dine instruktioner og indekser webindhold, du har angivet som grænser for edderkopper.

Robots.txt

Når en edderkop besøger dit WordPress-websted, er den første ting, den skal gøre, at læse filen "robots.txt". Denne fil indeholder regler, der angiver de filer og mapper, som enten kan eller ikke kan indekseres af alle edderkopper eller individuelt navngivet edderkopper. En edderkop finder sin unikke "bruger-agent" kode i filen eller et wildcard, der angiver "alle edderkopper". Det læser derefter listen over filer og mapper, der enten er tilladt eller ikke tilladt. Dernæst begynder det at indeksere kun de dele af det websted, som det er tilladt at indeksere.

Blokerende edderkopper

Du kan oprette en effektiv spiderblok til WordPress ved at oprette en "robots.txt" -fil i din WordPress-rodmappe og angive en regel, der udelukker indeksering af webstedets rodmappe. Dette udelukker automatisk indeksering af enhver underkatalog for roten. I filen skal du også angive, at denne regel gælder for alle kodeordens brugeragentkoder. Hver edderkopper, der besøger dit websted, bør læse filen og forlade uden at indeksere nogen del af dit websted. For eksempel skal filen "robots.txt" se ud:

Brugeragent: * Tillad: /

Gode ​​og dårlige edderkopper

Der er gode edderkopper, og der er dårlige edderkopper. Gode ​​edderkopper er fra anerkendte virksomheder som Google, Yahoo eller Microsoft og overholder reglerne i din robots.txt-fil. Dårlige edderkopper er fra enkeltpersoner eller virksomheder, der forsætligt ignorerer filen "robots.txt" og potentielt indekserer hele indholdet af dit websted uanset hvad du tillader eller afviser. Disse robotter søger nogle gange efter specifikke oplysninger som e-mailadresser, at sælge til spammere eller personlige oplysninger om brugere, at sælge til andre virksomheder. Edderkopperne scour hele dit websted, leder efter oplysninger eller indhold, som du ikke er korrekt skjult eller beskyttet. Forskellige webmastere har forskellige måder at håndtere rogue edderkopper på. Nogle prøver simpelthen at identificere, hvem de er, og blokere dem fra indeksering af indhold på webstedet. Andre forsøger at forårsage skade ved at forgifte edderkoppens database med falsk information eller ved at snyde edderkoppen ind i en endeløs sløjfe, der enten gør det til ophør eller afbrydelse.

Honningkrukke

En honeypot eller tarpit er en teknik, som nogle webmastere bruger til at identificere rogue edderkopper, så de kan blokere. Du kan oprette en honeypot ved blot at tilføje en mappe, der indeholder falsk indhold, f.eks. E-mail-adresser, og specifikt at udelade den pågældende mappe i filen "robots.txt". Serverloggene vil fortælle dig, hvilke edderkopper der har adgang til biblioteket, og du kan optage deres brugeragent-streng og IP-adresse. Med disse oplysninger kan du oprette regler i WordPress "htaccess" -filen, der nægter adgang til disse rogue edderkopper. Honeypoten skal løbende kontrolleres for at fange nye rogue robotter fra at få adgang til dit websted.

Populære Indlæg