Kathrin_9

Indexiert, obwohl durch robots.txt blockiert

Recommended Posts

Bei mir scheinen in der Search Console 178 Seiten auf, die von der Google Search Console indexiert wurden, obwohl sie durch die robots.txt Datei blockiert wurden. Es sind in erster Linie Suchseiten, insbesondere meine Labels. Ich habe diese Seiten in den Blogger-Einstellungen bereits auf noindex, noarchiev und unavailable_after gesetzt und die Fehlerbehebung aktiviert. Aber diese scheitert jedes Mal mit der Begrüdung, dass auf irgendeinen Server nicht zugegriffen werden kann. Ich habe nun auch versucht diese Seiten manuell zu entfernen, aber auch das scheint nichts zu bringen. Wie kann man dieses Problem lösen?

LG Kathrin

Edited by Kathrin_9

Share this post


Link to post
Share on other sites
37 minutes ago, Kathrin_9 said:

Aber diese scheitert jedes Mal mit der Begrüdung, dass auf irgendeinen Server nicht zugegriffen werden kann.

Bitte mehr Details, einen Screenshot oder eine Kopie bestenfalls.

Nutzt du die Webmastertools von Google? Da könntest du es gut testen.

Nur von deiner Aussage her kann man das relativ schwer nachprüfen gerade. Sind es definitiv URLs, die dem Schema in der robots.txt entsprechen?

Auf den Label-Seiten selbst gibt es keinerlei noindex-Tags.

Share this post


Link to post
Share on other sites
1 hour ago, Kathrin_9 said:

Bei mir scheinen in der Search Console 178 Seiten auf, die von der Google Search Console indexiert wurden, obwohl sie durch die robots.txt Datei blockiert wurden.

Überprüfe mal die SERP ob sie indexiert wurden, der Weg zur Überprüfung ist: site:meine-domain.xxx 

Der Robot Text wird vom Google Bot gern ignoriert. denn es gibt einen Metatag der mit <meta name="robots" content="noindex nofollow"> die in jeder der Vorhandenen und zu blockierenden Seiten im <head> tag stehen muss. Siehe:  hermesthemes.com/meta-robots-noindex-nofollow/  

 

Wenn die URLs im Index sind musst du mit remove url aus der Alten GSC (Google Search Console) arbeiten wenn es sich um Suchergebnisse handelt kannst du es dir einfach machen und willst die ablagen URL nehmen die mit blogspot.com/?wr= oder eben da wo der gemeinsame Nenner aufhört. Du musst nur aufpassen das du nichts erwischt das im Index bleiben soll.

Share this post


Link to post
Share on other sites

Ich weiss nicht ob dies deinem Problem hilft: Google unterstützt Anweisungen noindex, nofollow & crawl delay innerhalb der robots.txt nicht mehr. Das soll zwar erst ab september greifen, womöglich gilt es jetzt schon vereinzelt. 

 

Vor 10 Stunden, arnego2 said:

Der Robot Text wird vom Google Bot gern ignoriert. denn es gibt einen Metatag der mit <meta name="robots" content="noindex nofollow"> die in jeder der Vorhandenen und zu blockierenden Seiten im <head> tag stehen muss. Siehe:  hermesthemes.com/meta-robots-noindex-nofollow/  

Das wäre in deinem Fall die richtige Vorgehensweise. 

Share this post


Link to post
Share on other sites
Vor 11 Stunden, arnego2 said:

Der Robot Text wird vom Google Bot gern ignoriert.

Woher nimmst du diese Behauptung?

Google selbst sagt, dass jeder seriöse Crawler die robots.txt befolgt.

Die Erfahrung habe ich auch ausnahmslos gemacht. Wenn es Probleme gab, dann meist wegen fehlerhafter robots.txt.

32 minutes ago, Kris_SeoGuideline said:

Ich weiss nicht ob dies deinem Problem hilft: Google unterstützt Anweisungen noindex, nofollow & crawl delay innerhalb der robots.txt nicht mehr. Das soll zwar erst ab september greifen, womöglich gilt es jetzt schon vereinzelt.

Hat mit ihrem Problem nichts zu tun.

 

Ich kann mir eher vorstellen, dass der dritte Punkt der "Einschränkungen von robots.txt" greift:

https://support.google.com/webmasters/answer/6062608?hl=de

Wenn ich mir die Suchergebnisse zu den ausgeschlossenen Seiten so ansehe, scheint das zuzutreffen, es ist praktisch nur die URL und der Linktext (in dem Fall der Titel der Seite) in den Suchergebnissen. Kein Vorschausnippet, nur " Für diese Seite sind keine Informationen verfügbar."

D.h. Google bekommt die URL und den Titel aus den Links zu diesen gesperrten Seiten und indexiert diese Info. Die Zielseite selbst jedoch nicht.

Alles funktioniert, wie es das soll, genaugenommen. 😉

Share this post


Link to post
Share on other sites

Das bezieht sich auf das, was ich oben gesagt habe.

Google indexiert die Seite selbst nicht, aber sich auf die robots.txt zu verlassen, um zu verhindern, dass eine Seite in den Suchergebnissen auftaucht, reicht eben nicht, weil Google Links auch indexiert, ohne die Seite selbst zu crawlen.

Das bedeutet, der Bot befolgt die robots.txt und besucht die Seite nicht, aber sobald ein Link auf sie zeigt, kann sie mit URL und Ankertext trotzdem in den Suchergebnissen gelistet werden.

Share this post


Link to post
Share on other sites

Ich habe es erst heute wieder ins Forum geschafft. Vielen Dank für die Infos. Ich habe versucht, jene Seiten, die Google indexiert hat, obwohl durch robots.txt verboten, manuell über die alte Search Console zu löschen. Das geht aber auch nicht wirklich, denn nun erscheint in der Search Console die Meldung: "Gesendete URL als "noindex" gekennzeichnet", zudem blieb die alte Warnung aufrecht und die Seiten sind noch immer im Index. 

Wie sollte ich das mit dem Head machen? Es betrifft ja lediglich einzelne Seiten meines Blogs...

Ich habe die Seiten auch auf nosnippet gestellt, falls das hilft...

LG Kathrin

Edited by Kathrin_9

Share this post


Link to post
Share on other sites

Kenne dieses Problem auch. Wenn du die Seiten wirklich dringend aus dem Index haben willst, würde ich dir folgendes Vorgehen empfehlen: 

"noindex, noarchive, unvailable_after" wieder entfernen. Dann in der .htaccess mit folgendem arbeiten: Redirect 410 /kategorie/post.html 

Damit sollten die Seiten aus dem Index gelöscht werden. 

 

Share this post


Link to post
Share on other sites
1 hour ago, webverbesserer said:

Dann in der .htaccess mit folgendem arbeiten: Redirect 410 /kategorie/post.html 

Das ist korrekt, aber dann ist die Seite auch für ihre Besucher nicht mehr verfügbar.

Share this post


Link to post
Share on other sites
19 minutes ago, Matthes said:

Das ist korrekt, aber dann ist die Seite auch für ihre Besucher nicht mehr verfügbar.

Achso, ich dachte genau darauf zielte die Frage ab. 

In dem Falle würde ich dann (wobei hier Informationen zu den Inhalten der Seiten nützlich wären), wohl tatsächlich Google die Entscheidung über die Indexierung überlassen und die noindex etc. Einstellungen wieder entfernen. Eine andere Lösung ist mir da aktuell nicht bekannt. 

Share this post


Link to post
Share on other sites

Hmm, ok. Das mit unavailable_after habe ich auch bei allen diesen Beiträgen gemacht. Das Problem ist, dass diese alten Beiträge zum Teil zu einem Problem für die neuen Beiträge werden, da ich vor fast 10 Jahren mir oft nicht viel bei den Überschriften überlegt habe. Ich möchte sie eigentlich nicht mehr im Index haben. Aber was ist nun mit der Warnung von Google, dass die gesendete URL mit noindex versehen ist? Hier bekomme ich nicht nur eine Warnung, sondern einen Fehler.

LG Kathrin

Share this post


Link to post
Share on other sites
22 minutes ago, Kathrin_9 said:

Warnung von Google, dass die gesendete URL mit noindex versehen ist? Hier bekomme ich nicht nur eine Warnung, sondern einen Fehler.

Nun versuch es mal mit oder besser ohne den Robots,txt und versuche dann über die GSC die Remove URL Funktion. Einen Tag später kannst du die Robots.txt wieder einsetzen. Solange noch eine Robots.txt drin ist die Google in diesem Augenblick behindert wird die GSC nichts tun.

 

On 8.8.2019 at 15:27, Matthes said:

Das bedeutet, der Bot befolgt die robots.txt und besucht die Seite nicht, aber sobald ein Link auf sie zeigt, kann sie mit URL und Ankertext trotzdem in den Suchergebnissen gelistet werden.

Wie hier beschrieben wird ist es die IMHO korrekte Schlussfolgerung/Übersetzung/Auslegung der Google Worte. 😉

Share this post


Link to post
Share on other sites

Hmm, ok. Dann versuche ich es bei diesen 5 Artikeln mal so, dass ich die robots.txt entferne, sie via alte GSC entferne und dann die robots.txt wieder einsetze.

Vielen Dank!

 

LG Kathrin

  • Like 1

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.