Hur man utesluter WordPress-innehåll från Google Search

Hur man utesluter WordPress-innehåll och -filer från Google Search

Ibland måste du utesluta specifikt WordPress-innehåll eller filer från att indexeras i Googles sökresultat. Index eller “indexering” före framväxten av Google och andra sökmotorer var ett ord som mest förknippades med böcker. Den ligger vanligtvis på baksidan av de flesta böcker, och det är därför Cambridge-ordboken definierar det i detta sammanhang som:


Index: en alfabetisk lista, till exempel en som skrivs ut på baksidan av en bok som visar vilken sida ett ämne, namn, etc. finns på.

Snabbspolning fram till 1995, under internetboomen, vi har tjänster som Yahoo-sökmotor, och kom 1997 har Google-sökningen dramatiskt förändrat hur vi söker och får åtkomst till information på internet.

Enligt en undersökning som gjordes i januari 2018 finns det 1 805,260,010 (över 1,8 miljarder) webbplatser på internet, och många av dessa webbplatser får inga besökare alls.

Vad är Googles indexering?

Det finns olika sökmotorer med ett annat format för indexering, men de populära sökmotorerna inkluderar Google, Bing och för privatpersoner, duckduckgo.

Googles indexering avser vanligtvis processen att lägga till nya webbsidor, inklusive digitalt innehåll som dokument, videor och bilder och lagra dem i sin databas. Med andra ord, för att webbplatsens innehåll ska visas i Googles sökresultat måste de först lagras i Googles index.

Vad är Googles indexering?

Google kan indexera alla dessa digitala sidor och innehåll med sina spindlar, sökrobotar eller bots som upprepade gånger genomsöker olika webbplatser på Internet. Dessa bots och sökrobotar följer webbplatsägarens instruktioner om vad de ska genomsöka och vad som borde ignoreras under genomsökningen.

Varför webbplatser behöver indexeras?

I denna era av den digitala tidsåldern är det nästan omöjligt att navigera igenom miljarder webbplatser för att hitta ett särskilt ämne och innehåll. Det blir mycket lättare om det finns ett verktyg för att visa oss vilka webbplatser som är pålitliga, vilket innehåll som är användbart och relevant för oss. Det är därför Google finns och rangordnar webbplatser i sina sökresultat.

Indexering blir en oumbärlig del av hur sökmotorer i allmänhet och Google i synnerhet fungerar. Det hjälper till att identifiera ord och uttryck som bäst beskriver en sida och bidrar totalt sett till sid- och webbplatsrankning. För att visas på den första sidan på Google, din webbplats, inklusive webbsidor och digitala filer som videor, bilder och dokument, måste först indexeras.

Indexering är ett förutsättningssteg för att webbplatser ska rankas bra på sökmotorer i allmänhet och Google i synnerhet. Med hjälp av nyckelord kan webbplatser ses bättre och upptäckas efter att de har indexerats och rankats av sökmotorer. Detta öppnar sedan dörrar för fler besökare, prenumeranter och potentiella kunder för din webbplats och ditt företag.

Det bästa stället att dölja en död kropp är sidan två på Google.

Även om du har många indexerade sidor gör inte dina webbplatser automatiskt högre, om innehållet på dessa sidor är högkvalitativt så kan du också få ett boost när det gäller SEO.

Varför & hur man blockerar sökmotorn från att indexera innehåll

Även om indexering är utmärkt för webbplatsägare och företagare, finns det sidor som du kanske inte vill visas i sökresultaten. Du kan också riskera att exponera känsliga filer och innehåll på Internet. Utan lösenord eller autentisering riskerar privat innehåll att exponeras och obehörig åtkomst om bots får fritt tyg över din webbplats mappar och filer.

I början av 2000-talet, hackare använde Google-sökning för att visa kreditkortsinformation från webbplatser med enkla sökfrågor. Denna säkerhetsfel användes av många hackare för att stjäla kortinformation från e-handelswebbplatser.

En annan nyligen säkerhetsfel hände förra året till box.com, ett populärt molnlagringssystem. Säkerhetshålet utsattes av Markus Neis, hotinformation för Swisscom. Han rapporterade att enkla utnyttjanden av sökmotorer inklusive Google och Bing kan avslöja konfidentiella filer och information för många företag och enskilda kunder.

Fall som dessa inträffar online och kan förlora försäljning och intäkter för företagare. För webbplatser för företag, e-handel och medlemskap är det kritiskt viktigt att först blockera sökindexering av känsligt innehåll och privata filer och sedan antagligen lägga dem bakom ett anständigt användarverifieringssystem..

Låt oss titta på hur du kan kontrollera vilket innehåll och filer som kan genomsökas och indexeras av Google och andra sökmotorer.

1. Använda Robots.txt för bilder

Robots.txt är en fil som ligger i roten på din webbplats som ger Google, Bing och andra sökmotorer bots med instruktioner om vad som ska genomsökas och vad inte. Medan robots.txt vanligtvis används för att kontrollera genomsökning av trafik och webb (mobil vs desktop) sökrobotar, kan det också användas för att förhindra att bilder visas i Googles sökresultat.

En robots.txt-fil med vanliga WordPress-webbplatser ser ut så här:

Användaragent: *
Disallow: / wp-admin /
Disallow: / wp-include /

Standard robots.txt-filen börjar med en instruktion för användaragent och en asterisk-symbol. Stjärnan är en instruktion för alla bots som anländer till webbplatsen att följa alla instruktioner som anges nedan.

Håll bots borta från specifika digitala filer med Robot.txt

Robots.txt kan också användas för att stoppa sökmotorns genomsökning av digitala filer som PDF-filer, JPEG eller MP4. För att blockera sökning av PDF- och JPEG-fil bör detta läggas till i robots.txt-filen:

PDF-filer

Användaragent: *
Disallow: / pdfs / # Blockera katalogen / pdfs /.
Disallow: * .pdf $ # Blockera pdf-filer från alla bots. Även om det inte är standard fungerar det för stora sökmotorer.

Bilder

Användaragent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg-bild för Googlebot specifikt.

Om du vill blockera alla .GIF-bilder från att bli indexerade och visas på google-bildsökning medan du tillåter andra bildformat som JPEG och PNG, bör du använda följande regler:

Användaragent: Googlebot-Image
Disallow: /*.gif$

Viktig: Ovanstående kodavsnitt utesluter helt enkelt ditt innehåll från att indexeras av tredje parts webbplatser som Google. De är fortfarande tillgängliga om någon vet vart man ska titta. För att göra filer privata så att ingen kan komma åt dem behöver du använda en annan metod, till exempel dessa innehållsbegränsningsplugins.

Googlebot-Image kan användas för att blockera bilder och en viss bildförlängning visas på Googles bildsökning. Om du vill utesluta dem från alla Google-sökningar, t.ex. webbsökning och bilder är det lämpligt att använda en Googlebot-användaragent istället.

Andra Google-användaragenter för olika element på en webbplats inkluderar Googlebot-Video för videor från att ansöka i Google-videodelen på webben. På liknande sätt blockerar användaragenten från Googlebot alla videor från att visas i google-videor, webbsökning eller mobilwebsökning.

Roboter txt No-Index

Kom ihåg att användning av Robots.txt inte är en lämplig metod för att blockera känsliga eller konfidentiella filer och innehåll på grund av följande begränsningar:

  • Robots.txt kan bara instruera välbeteende sökrobotar; andra icke-kompatibla sökmotorer och bots kan helt enkelt ignorera dess instruktioner.
  • Robots.txt hindrar inte din server från att skicka dessa sidor och filer till obehöriga användare på begäran.
  • Sökmotorer kan fortfarande hitta och indexera sidan och innehållet du blockerar om de är länkade från andra webbplatser och källor.
  • Robots.txt är tillgängligt för alla som sedan kan läsa alla dina instruktioner och få tillgång till innehållet och filerna direkt

Använd istället följande metoder för att blockera sökindex och skydda din privata information.

2. Använda ingen index-metatagg för sidor

Att använda metatag utan index är en korrekt och effektivare metod för att blockera sökindexering av känsligt innehåll på din webbplats. Till skillnad från robots.txt placeras metataggen utan index i del av en webbsida med en mycket enkel HTML-tagg:



...

Någon sida med denna instruktion i rubriken visas inte i Googles sökresultat. Andra direktiv som nofollow och notranslate kan också användas berätta för webcrawler att inte krypa länkarna och erbjuder översättning av respektive sida.

Du kan instruera flera sökrobotar genom att använda flera metataggar på en sida enligt följande:



...


Det finns två sätt att lägga till den här koden på din webbplats. Ditt första alternativ är att skapa ett WordPress-barntema, sedan kan du i dina funktioner.php använda WordPress wp_head-handkroken för att infoga en noindex eller andra metataggar. Nedan är ett exempel på hur du skulle indexera din inloggningssida.

add_action ('wp_head', funktion () {
if (is_page ('login')) {
echo '';
}
});

Det andra alternativet är att använda din SEO-plugin för att kontrollera en sidas synlighet. Med Yoast SEO kan du till exempel gå till avsnittet om avancerade inställningar på en sida och helt enkelt välja “Nej” för alternativen för att låta sökmotorn visa sidan:

Yoast SEO-sökresultatsinställning

3. Använda X-Robots-Tag HTTP-header för andra filer

X-Robots-Tag ger dig mer flexibilitet för att blockera sökindexering av ditt innehåll och filer. I jämförelse med metataggen utan index kan den användas som HTTP-huvudsvar för alla givna URL: er. Du kan till exempel använda X-Robots-taggen för bild-, video- och dokumentfiler där det inte är möjligt att använda robotens metataggar.

Du kan läsa Googles fulla metatagguide för robotar, men så här kan du instruera sökrobotar att inte följa och indexera en JPEG-bild med X-Robots-taggen på dess HTTP-svar:

HTTP / 1.1 200 OK
Innehållstyp: image / jpeg
Datum: lör, 27 nov 2018 01:02:09 GMT
(...)
X-Robots-Tag: noindex, nofollow
(...)

Alla direktiv som kan användas med en robot-metatagg är också tillämpliga på en X-Robots-tagg. På samma sätt kan du också instruera flera sökmotorbots:

HTTP / 1.1 200 OK
Datum: Tis 21 september 2018 21:09:19 GMT
(...)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(...)

Det är viktigt att notera att sökmotorer bots upptäcker Robots metataggar och X-Robots-Tag HTTP-rubriker under genomsökningsprocessen. Så om du vill att dessa bots ska följa din instruktion att inte följa eller indexera något konfidentiellt innehåll och dokument, får du inte stoppa dessa sidor och fil-URL: er från att genomsöka.

Om de har blockerats från att genomsöka med filen robots.txt kommer dina instruktioner om indexering inte att läsas, och så ignoreras. Som ett resultat, om andra webbplatser länkar till ditt innehåll och dokument, kommer de fortfarande att indexeras av Google och andra sökmotorer.

4. Använda .htaccess-regler för Apache-servrar

Du kan också lägga till X-Robots-Tag HTTP-rubrik till din .htaccess-fil för att blockera sökrobotar från att indexera sidor och digitalt innehåll på din webbplats som är värd på en Apache-server. Till skillnad från metataggar utan index, .htaccess-regler kan tillämpas på en hel webbplats eller en viss mapp. Dess stöd för regelbundna uttryck erbjuder ännu högre flexibilitet för dig att rikta in sig på flera filtyper samtidigt.

För att blockera Googlebot, Bing och Baidu från att genomsöka en webbplats eller en speciell katalog använder du följande regler:

RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Lägg till följande kodavsnitt för att blockera sökindexering av alla .txt-, .jpg-, .jpeg-, .pdf-filer på hela webbplatsen:


Header set X-Robots-Tag "noindex, nofollow"

5. Använd sidverifiering med användarnamn och lösenord

Ovanstående metoder förhindrar att ditt privata innehåll och dokument visas i Googles sökresultat. Alla användare med länken kan dock nå ditt innehåll och komma åt dina filer direkt. För säkerhet rekommenderas det starkt att du ställer in korrekt autentisering med användarnamn och lösenord samt rolltillgångstillstånd.

Använda sidautentisering

Till exempel bör sidor som innehåller personliga profiler av personal och känsliga dokument som inte får åtkomst av anonyma användare skjutas bakom en autentiseringsgrind. Så även om användare på något sätt lyckas hitta sidorna kommer de att be om referenser innan de kan kolla in innehållet.

WordPress lösenordsskydd

För att göra detta med WordPress ställer du bara inläggets synlighet på lösenord skyddat. På det här sättet kan du välja ett lösenord som krävs för att se innehållet på den sidan. Detta är ganska enkelt att göra per post / sida. För mer omfattande sekretess på webbplatsen kan du försöka lägga till ett av dessa WordPress-medlemskapsplugin på din webbplats.

Kom ihåg att lösenordsskyddade eller dolda sidor från sökmotorer och besökare inte nödvändigtvis skyddar dokument, videor och bilder som är kopplade till dess innehåll. För verkligt skydd av dina WordPress-filuppladdningar rekommenderas en premiumtjänst som Prevent Direct Access Gold.

Slutsats

I loppet att vara på sidan en av Google kanske företagare inte tar hänsyn till vad sökmotorer kan se. Oavsett om du blockerar bots från en specifik fil, döljer en anpassad inloggningssida eller lösenord som skyddar privata användarkataloger … det finns många sidor att tänka på att inte indexera när det gäller sökmotorer.

Har du några frågor om att utesluta innehåll från sökresultaten? Eller förhindrar vissa filer att indexeras? Lämna en kommentar nedan!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map