Analiza robotów txt Yandex. Jak sprawdzić, czy robot będzie indeksować określony adres URL. Norma dopuszcza takie wpisy

Roboty wyszukujące - roboty indeksujące rozpoczynają swoją znajomość z witryną od odczytania pliku robots.txt. Zawiera wszystkie ważne dla nich informacje. Właściciele witryn powinni tworzyć i okresowo przeglądać plik robots.txt. Od poprawności jej działania zależy szybkość indeksowania stron oraz miejsce w wynikach wyszukiwania.

Nie jest to obowiązkowy element witryny, ale jego obecność jest pożądana, ponieważ jest wykorzystywana przez właścicieli witryn do sterowania robotami wyszukiwania. Ustaw różne poziomy dostępu do serwisu, zakaz indeksowania całej witryny, poszczególnych stron, sekcji czy plików. W przypadku zasobów o dużym natężeniu ruchu ogranicz czas indeksowania i zabroń dostępu robotom niezwiązanym z głównymi wyszukiwarkami. Zmniejszy to obciążenie serwera.

Kreacja. Utwórz plik w Edytor tekstu Notatnik lub podobny. Upewnij się, że rozmiar pliku nie przekracza 32 KB. Wybierz kodowanie ASCII lub UTF-8 dla pliku. Pamiętaj, że plik musi być unikalny. Jeśli strona jest tworzona w CMS, to zostanie wygenerowana automatycznie.

Umieść utworzony plik w katalogu głównym serwisu obok głównego pliku index.html. Aby to zrobić, użyj dostępu FTP. Jeżeli strona jest wykonana w systemie CMS, to plik przetwarzany jest przez panel administracyjny. Gdy plik jest utworzony i działa poprawnie, jest dostępny w przeglądarce.

W przypadku braku pliku robots.txt roboty wyszukiwania zbierają wszystkie informacje związane z witryną. Nie zdziw się, gdy w wynikach wyszukiwania zobaczysz puste strony lub informacje o usługach. Określ, które sekcje witryny będą dostępne dla użytkowników, a resztę zamknij przed indeksowaniem.

Badanie. Okresowo sprawdzaj, czy wszystko działa poprawnie. Jeśli przeszukiwacz nie otrzyma odpowiedzi 200 OK, automatycznie zakłada, że plik nie istnieje, a witryna jest w pełni otwarta do indeksowania. Kody błędów są następujące:

3xx - przekieruj odpowiedzi. Robot jest kierowany na inną stronę lub na główną. Utwórz do pięciu przekierowań na jednej stronie. Jeśli jest ich więcej, robot oznaczy taką stronę jako błąd 404. To samo dotyczy przekierowań opartych na zasadzie nieskończonej pętli;

4xx - odpowiedzi na błędy witryny. Jeśli przeszukiwacz otrzyma błąd 400 z pliku robots.txt, uzna, że plik nie istnieje i cała zawartość jest dostępna. Dotyczy to również błędów 401 i 403;

5xx - odpowiedzi na błędy serwera. Robot będzie „pukał”, dopóki nie otrzyma odpowiedzi innej niż 500.

Zasady tworzenia

Zaczynamy od powitania. Każdy plik musi zaczynać się od powitania klienta użytkownika. Dzięki niemu wyszukiwarki określą poziom otwartości.

Kod	Oznaczający
Agent użytkownika: *	Dostępne dla wszystkich
Agent użytkownika: Yandex	Dostępne dla robota Yandex
Klient użytkownika: Googlebot	Dostępne dla Googlebota
Agent użytkownika: Mail.ru	Dostępne dla robota Mail.ru

Dodaj oddzielne dyrektywy dla robotów. W razie potrzeby dodaj dyrektywy dla wyspecjalizowanych botów wyszukiwania Yandex.

Jednak w tym przypadku dyrektywy * i Yandex nie będą brane pod uwagę.

Google ma własne boty:

Najpierw banujemy, potem pozwalamy. Działają z dwiema dyrektywami: Zezwól – zezwalam, Nie zezwalaj – zabraniam. Pamiętaj, aby dołączyć dyrektywę disallow, nawet jeśli zezwala się na dostęp do całej witryny. Ta dyrektywa jest obowiązkowa. Jeśli go nie ma, robot indeksujący może niepoprawnie odczytać pozostałe informacje. Jeśli witryna nie zawiera treści objętych ograniczeniami, pozostaw tę dyrektywę pustą.

Pracuj na różnych poziomach. W pliku można określić ustawienia na czterech poziomach: witryna, strona, folder i typ zawartości. Załóżmy, że chcesz ukryć obrazy przed indeksowaniem. Można to zrobić na poziomie:

foldery - nie zezwalaj na: /images/
typ treści - nie zezwalaj: /*.jpg

Pogrupuj dyrektywy blokami i oddziel je pustą linią. Nie pisz wszystkich zasad w jednym wierszu. Użyj oddzielnej reguły dla każdej strony, robota, folderu itp. Nie myl też instrukcji: napisz bota w agencie użytkownika, a nie w dyrektywie allow/disallow.

Nie	tak
Odrzuć: Yandex	Agent użytkownika: Yandex uniemożliwić: /
Nie zezwalaj: /css/ /obrazy/	Nie zezwalaj: /css/ Nie zezwalaj: /obrazy/

Pisz z uwzględnieniem wielkości liter. Określ nazwę pliku małe litery. Yandex w dokumentacji wyjaśniającej wskazuje, że sprawa nie ma znaczenia dla jego botów, ale Google prosi o uszanowanie sprawy. Możliwe jest również, że w nazwach plików i folderów rozróżniana jest wielkość liter.

Określ przekierowanie 301 do głównego serwera lustrzanego. Kiedyś do tego służyła dyrektywa Host, ale od marca 2018 r. nie jest już potrzebna. Jeśli znajduje się już w pliku robots.txt, usuń go lub pozostaw według własnego uznania; roboty ignorują tę dyrektywę.

Aby określić główny serwer lustrzany, umieść przekierowanie 301 na każdej stronie witryny. Jeśli nie ma przekierowania, wyszukiwarka niezależnie określi, które lustro jest uważane za główne. Aby naprawić lustro witryny, po prostu wprowadź przekierowanie strony 301 i poczekaj kilka dni.

Napisz dyrektywę Mapa witryny (mapa witryny). Pliki sitemap.xml i robots.txt wzajemnie się uzupełniają. Sprawdź, aby:

pliki nie są ze sobą sprzeczne;
strony zostały wykluczone z obu plików;
strony były dozwolone w obu plikach.

Analizując zawartość robots.txt zwróć uwagę, czy mapa witryny jest uwzględniona w dyrektywie o tej samej nazwie. Jest napisany tak: Mapa strony: www.yoursite.ru/sitemap.xml

Określ komentarze za pomocą symbolu #. Wszystko, co jest napisane po tym, jest ignorowane przez robota.

Weryfikacja pliku

Analizuj plik robots.txt za pomocą narzędzi programistycznych: Yandex.Webmaster i Google Robots Testing Tool. Należy pamiętać, że Yandex i Google sprawdzają tylko, czy plik spełnia ich własne wymagania. Jeśli plik jest poprawny dla Yandex, nie oznacza to, że będzie poprawny dla robotów Google, więc sprawdź oba systemy.

Jeśli znajdziesz błędy i naprawisz plik robots.txt, roboty indeksujące nie od razu odczytują zmiany. Zazwyczaj ponowne indeksowanie strony odbywa się raz dziennie, ale często trwa znacznie dłużej. Sprawdź plik po tygodniu, aby upewnić się, że wyszukiwarki korzystają z nowej wersji.

Sprawdzanie w Yandex.Webmaster

Najpierw zweryfikuj prawa do serwisu. Następnie pojawi się w panelu Webmastera. Wpisz nazwę witryny w polu i kliknij sprawdź. Wynik sprawdzenia będzie dostępny poniżej.

Dodatkowo sprawdź poszczególne strony. Aby to zrobić, wprowadź adresy stron i kliknij "sprawdź".

Testowanie w Google Robots Testing Tool

Umożliwia sprawdzenie i edycję pliku w panelu administracyjnym. Daje komunikat o logicznym i błędy składniowe. Popraw tekst pliku bezpośrednio w edytorze Google. Pamiętaj jednak, że zmiany nie są automatycznie zapisywane. Po naprawieniu pliku robots.txt skopiuj kod z edytora internetowego i utwórz nowy plik za pomocą notatnika lub innego edytora tekstu. Następnie prześlij go na serwer w katalogu głównym.

Pamiętać

Plik robots.txt pomaga robotom wyszukiwać w indeksowaniu witryny. Zamknij witrynę podczas opracowywania, przez resztę czasu - cała witryna lub jej część powinna być otwarta. Prawidłowo działający plik powinien zwrócić 200 odpowiedzi.

Plik jest tworzony w zwykłym edytorze tekstu. W wielu CMS-ach panel administracyjny umożliwia utworzenie pliku. Upewnij się, że rozmiar nie przekracza 32 KB. Umieść go w katalogu głównym witryny.

Wypełnij plik zgodnie z zasadami. Zacznij od kodu „User-agent:”. Zapisz zasady w blokach, oddziel je pustą linią. Postępuj zgodnie z przyjętą składnią.

Zezwalaj lub nie zezwalaj na indeksowanie dla wszystkich lub wybranych robotów indeksujących. Aby to zrobić, podaj nazwę robota wyszukiwania lub umieść ikonę *, co oznacza „dla wszystkich”.

Pracuj z różnymi poziomami dostępu: witryna, strona, folder lub typ pliku.

Dołącz do pliku wskazanie głównego serwera lustrzanego za pomocą stronicowanego przekierowania 301 oraz mapy witryny za pomocą dyrektywy sitemap.

Użyj narzędzi programistycznych, aby przeanalizować plik robots.txt. Są to Yandex.Webmaster i Google Robots Testing Tools. Najpierw potwierdź prawa do witryny, a następnie sprawdź. W Google natychmiast edytuj plik w edytorze internetowym i usuń błędy. Edytowane pliki nie są zapisywane automatycznie. Prześlij je na serwer zamiast oryginalnego pliku robots.txt. Po tygodniu sprawdź, czy wyszukiwarki korzystają z nowej wersji.

Materiał przygotowała Svetlana Sirvida-Llorente.

Każdego dnia w Internecie pojawiają się rozwiązania konkretnego problemu. Nie masz pieniędzy na projektanta? Użyj jednego z tysięcy darmowe szablony. Nie chcesz zatrudniać specjalisty SEO? Skorzystaj z usług niektórych znanych Darmowa usługa, sam przeczytaj kilka artykułów.

Od dłuższego czasu nie ma potrzeby pisania tego samego pliku robots.txt od zera. Nawiasem mówiąc, jest to specjalny plik, który jest dostępny w prawie każdej witrynie i zawiera instrukcje dla robotów wyszukiwania. Składnia polecenia jest bardzo prosta, ale utworzenie własnego pliku nadal zajmie trochę czasu. Lepiej zajrzeć na inną stronę. Jest tu kilka zastrzeżeń:

Witryna musi być w tym samym silniku co Twoja. W zasadzie w dzisiejszych czasach istnieje wiele usług w Internecie, w których można znaleźć nazwę cms prawie każdego zasobu sieciowego.

Powinna to być mniej lub bardziej skuteczna witryna, która dobrze sobie radzi z ruchem z wyszukiwania. Oznacza to, że plik robots.txt jest w porządku.

Tak więc, aby wyświetlić ten plik, musisz pasek adresu typ: nazwa-domeny.zone/robots.txt

Wszystko jest niewiarygodnie proste, prawda? Jeśli adres nie zostanie znaleziony, oznacza to, że na stronie nie ma takiego pliku lub dostęp do niego jest zamknięty. Ale w większości przypadków zobaczysz zawartość pliku przed sobą:

W zasadzie nawet osoba, która nie jest szczególnie zorientowana w kodzie, szybko zrozumie, co tu napisać. Polecenie allow pozwala na indeksowanie czegoś, a komenda disallow zabrania tego. Klient użytkownika to wskazanie robotów wyszukujących, do których adresowane są instrukcje. Jest to konieczne, gdy musisz określić polecenia dla konkretnej wyszukiwarki.

Co zrobic nastepnie?

Skopiuj wszystko i zmień dla swojej witryny. Jak zmienić? Powiedziałem już, że silniki strony muszą się zgadzać, inaczej nic nie ma sensu zmieniać - trzeba przepisać absolutnie wszystko.

Musisz więc przejść przez wiersze i określić, które sekcje są obecne w Twojej witrynie, a które nie. Na powyższym zrzucie ekranu widać przykład pliku robots.txt dla witryny Wordpress, a w osobnym katalogu znajduje się forum. Wniosek? Jeśli nie masz forum, wszystkie te linie muszą zostać usunięte, ponieważ po prostu nie masz takich sekcji i stron, po co je zamykać?

Najprostszy plik robots.txt może wyglądać tak:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Allow: /wp-content/uploads/

Agent użytkownika : *

Nie zezwalaj: /wp-admin

Odrzuć: /wp-zawiera

Nie zezwalaj: / wp-treść

Zezwól: /wp-content/uploads/

Wszyscy prawdopodobnie znacie standardową strukturę folderów w wordpressie, jeśli zainstalowaliście ten silnik przynajmniej raz. Są to foldery wp-admin, wp-content i wp-includes. Zazwyczaj wszystkie 3 są zamknięte z indeksowania, ponieważ zawierają czysto techniczne pliki niezbędne do działania silnika, wtyczek i szablonów.

Katalog przesyłania jest otwierany, ponieważ zawiera zdjęcia i zwykle są one indeksowane.

Ogólnie rzecz biorąc, musisz przejrzeć skopiowany plik robots.txt i zobaczyć, co faktycznie jest napisane w Twojej witrynie, a co nie. Oczywiście trudno będzie to ustalić samemu. Mogę tylko powiedzieć, że jeśli czegoś nie usuniesz, to w porządku, będzie tylko dodatkowa linia, która nie zaszkodzi (ponieważ nie ma partycji).

Czy ustawienie robots.txt jest naprawdę takie ważne?

Oczywiście musisz mieć ten plik i przynajmniej zamknąć za jego pośrednictwem główne katalogi. Ale czy skomponowanie go jest niezwykle ważne? Jak pokazuje praktyka, nie. Osobiście widzę witryny w tych samych wyszukiwarkach z zupełnie innym plikiem robots.txt, które są równie skuteczne w wyszukiwarkach.

Nie twierdzę, że można popełnić jakiś błąd. Na przykład zamknij obrazy lub pozostaw otwarty niepotrzebny katalog, ale coś bardzo przerażającego się nie wydarzy. Po pierwsze dlatego, że wyszukiwarki są dziś mądrzejsze i mogą ignorować niektóre instrukcje z pliku. Po drugie, o konfigurowaniu pliku robots.txt napisano setki artykułów i można z nich coś zrozumieć.

Widziałem pliki, które miały 6-7 wierszy zabraniających indeksowania kilku katalogów. Widziałem też pliki ze stu lub dwoma linijkami kodu, w których wszystko co było możliwe było zamykane. Obie strony miały się dobrze.

W wordpressie są tak zwane duplikaty. To jest złe. Wielu zmaga się z tym, zamykając takie duplikaty, jak ten:

Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/

Nie zezwalaj: /wp-feed

Tutaj musimy walczyć inaczej. Na przykład za pomocą przekierowań lub wtyczek, które niszczą duplikaty. To jednak temat na osobny artykuł.

Gdzie znajduje się plik robots.txt?

Ten plik zawsze znajduje się w katalogu głównym witryny, więc możemy uzyskać do niego dostęp, wpisując adres witryny i nazwę pliku za pomocą ukośnika. Moim zdaniem wszystko tutaj jest tak proste, jak to tylko możliwe.

Ogólnie rzecz biorąc, dzisiaj zastanawialiśmy się, jak wyświetlić zawartość pliku robots.txt, skopiować go i zmienić zgodnie z własnymi potrzebami. W najbliższej przyszłości napiszę jeszcze 1-2 artykuły na temat konfiguracji, ponieważ w tym artykule nie omówiliśmy wszystkiego. Nawiasem mówiąc, u nas znajdziesz również wiele informacji na temat promowania stron blogowych. I z tym żegnam się z tobą.

Jeśli witryna została dodana do Yandex.Webmaster i prawa do zarządzania nią zostały potwierdzone

Zawartość pliku pojawi się na stronie po potwierdzeniu uprawnień do zarządzania serwisem.

Jeśli treść pojawi się na stronie Parse robots.txt, kliknij przycisk Sprawdź.

Jeśli witryna nie została dodana do Yandex.Webmaster

W sekcjach przeznaczonych dla robota Yandex (User-agent: Yandex lub User-agent:*) narzędzie sprawdza dyrektywy na podstawie reguł korzystania z robots.txt. Pozostałe sekcje sprawdzane są zgodnie z normą.

Jak sprawdzić, czy robot będzie indeksować określony adres URL?

Po przesłaniu pliku robots.txt do Yandex.Webmaster na stronie analizy pliku robots.txt wyświetlany jest blok Czy adresy URL są dozwolone? .

W polu Lista adresów URL wprowadź adres strony, którą chcesz sprawdzić. Możesz określić pełny adres URL lub adres względem katalogu głównego witryny. Na przykład https://example.com/page/ lub /page/.
Kliknij przycisk Sprawdź.

Jeśli adres URL jest dozwolony do indeksowania przez roboty Yandex, obok adresu pojawi się ikona, jeśli jest to zabronione, wyświetlony zostanie adres zaznaczony na czerwono.

Jak śledzić zmiany w plikach

Notatka. Dostępna jest historia zmian za sześć miesięcy. Maksymalna liczba zapisanych wersji to 100.

Aby otrzymywać powiadomienia o zmianach w pliku robots.txt w odpowiednim czasie, skonfiguruj powiadomienia.

Yandex.Webmaster regularnie sprawdza dostępność aktualizacji plików i zapisuje wersje w oparciu o datę i godzinę zmiany. Aby je zobaczyć, przejdź do strony Narzędzia → Analiza Robots.txt.

Lista wersji jest wyświetlana, jeśli jednocześnie spełnione są następujące warunki:

dodałeś witrynę do Yandex.Webmaster i potwierdziłeś prawa do zarządzania witryną;
Yandex.Webmaster ma informacje o zmianach w pliku robots.txt .

Możesz: Wyświetlić bieżące i poprzednie wersje plik

Wybierz wersję pliku z listy wersji pliku robots.txt. W poniższym polu zostanie wyświetlona zawartość pliku robots.txt , a także wyniki analizy.

Pobierz wybraną wersję pliku

Wybierz wersję pliku z listy wersji pliku robots.txt.
Kliknij przycisk Pobierz. Plik zostanie zapisany na Twoim urządzeniu w formacie TXT.

Pytania i odpowiedzi

Błąd „Ten adres URL nie należy do Twojej domeny”

Najprawdopodobniej na liście adresów URL podałeś adres jednego z serwerów lustrzanych Twojej witryny, na przykład http://example.com zamiast http://www.example.com . Formalnie są to dwa różne adresy URL. Sprawdzane adresy URL muszą należeć do witryny, której plik robots.txt jest analizowany.

Robots.txt to plik tekstowy, który zawiera parametry indeksowania witryny dla robotów wyszukiwarek.

Yandex obsługuje następujące dyrektywy:

Dyrektywa	Co on robi
agent użytkownika*
Uniemożliwić
Mapa strony
Czyste param
umożliwić
Opóźnienie indeksowania

Dyrektywa	Co on robi
agent użytkownika*	Wskazuje robota, do którego mają zastosowanie reguły wymienione w pliku robots.txt.
Uniemożliwić	Zabrania indeksowania sekcji lub poszczególnych stron serwisu.
Mapa strony	Określa ścieżkę do pliku mapy witryny hostowanego w witrynie.
Czyste param	Wskazuje robotowi, że adres URL strony zawiera parametry (na przykład tagi UTM), których nie należy brać pod uwagę podczas indeksowania.
umożliwić	Umożliwia indeksowanie sekcji lub poszczególnych stron serwisu.
Opóźnienie indeksowania	Określa minimalny czas (w sekundach) dla robota między końcem ładowania jednej strony a początkiem ładowania następnej.

* Obowiązkowa dyrektywa.

Najczęściej możesz potrzebować dyrektyw Disallow, Sitemap i Clean-param. Na przykład:

User-agent: * #określ, dla których robotów są ustawione dyrektywy\nDisallow: /bin/ # nie zezwala na linki z \"Koszyka towarów\".\nDisallow: /search/ # nie zezwala na linki do stron wbudowanych w wyszukiwanie\nDisallow : /admin / # wyłącz linki z panelu administracyjnego\nMapa witryny: http://example.com/sitemap # wskaż robotowi plik mapy witryny dla strony\nClean-param: ref /some_dir/get_book.pl

Roboty innych wyszukiwarek i usług mogą inaczej interpretować te dyrektywy.

Notatka. Robot rozróżnia wielkość liter podczas pisania podciągów (nazwa lub ścieżka do pliku, nazwa robota) i nie rozróżnia wielkości liter podczas pisania nazw dyrektyw.

użycie cyrylicy

Zabronione jest używanie cyrylicy w pliku robots.txt oraz w nagłówkach HTTP serwera.

Użyj Punycode, aby określić nazwy domen. Określ adresy stron w kodowaniu odpowiadającym kodowaniu aktualnej struktury witryny.

Przykładowy plik robots.txt:

#Incorrect:\nUser-agent: Yandex\nDisallow: /cart\n\n#Correct:\nUser-agent: Yandex\nDisallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0% B8%D0%BD%D0%B0

Jak stworzyć robots.txt

Pytania i odpowiedzi

W Yandex.Webmaster na stronie Diagnostyka witryny występuje błąd: „Serwer odpowiada przekierowaniem na żądanie /robots.txt”

Aby plik robots.txt został uwzględniony przez robota, musi on znajdować się w katalogu głównym serwisu i odpowiadać kodem HTTP 200. Robot indeksujący nie obsługuje korzystania z plików znajdujących się w innych witrynach .

Możesz sprawdzić odpowiedź serwera i dostępność pliku robots.txt dla robota za pomocą narzędzia Sprawdzanie odpowiedzi serwera .

Jeśli Twój plik robots.txt przekierowuje do innego pliku robots.txt (na przykład podczas przenoszenia witryny), dodaj witrynę będącą celem przekierowania do Yandex.Webmaster i potwierdź uprawnienia do zarządzania witryną.

/ wyświetl: 21917

Cześć drodzy przyjaciele! Sprawdzenie pliku robots.txt jest tak samo ważne, jak jego poprawne napisanie.

Sprawdzanie pliku robots.txt w panelach Yandex i Google Webmasters.

Sprawdzając robots.txt, dlaczego to ważne?

Prędzej czy później każdy szanujący się autor strony pamięta plik robots. O tym pliku, umieszczonym w katalogu głównym serwisu, jest napisane mnóstwo w Internecie. Prawie każdy webmaster ma witrynę informującą o trafności i poprawności jej kompilacji. W tym artykule przypomnę początkującym blogerom, jak to sprawdzić za pomocą narzędzi w panelu webmastera dostarczonych przez Yandex i Google.

Najpierw trochę o nim. Plik Robots.txt (czasami błędnie nazywany robot.txt, w liczbie pojedynczej, należy zwrócić uwagę na angielską literę s na końcu) jest tworzony przez webmasterów w celu oznaczenia lub zabronienia niektórych plików i folderów witryny internetowej dla robotów wyszukiwarek (takich jak jak również inne rodzaje robotów). To znaczy te pliki, do których robot wyszukiwarki nie powinien mieć dostępu.

Sprawdzenie robots.txt jest obowiązkowym atrybutem dla autora strony podczas tworzenia bloga na WordPressie i jego dalszej promocji. Wielu webmasterów z pewnością również przegląda strony projektu. Parsowanie informuje roboty o prawidłowej składni, aby upewnić się, że jest w prawidłowym formacie. Faktem jest, że istnieje ustalony standard dotyczący wyjątków dla robotów. Nie będzie zbyteczne poznanie opinii samych wyszukiwarek, przeczytanie dokumentacji, w której wyszukiwarki szczegółowo opisują swoją wizję tego pliku.

Wszystko to nie będzie zbyteczne, aby nadal chronić Twoją witrynę przed błędami podczas indeksowania. Znam przykłady, kiedy z powodu niepoprawnie skompilowanego pliku dano sygnał, by zabronić jego widoczności w sieci. Przy dalszej korekcie możesz długo czekać na zmianę sytuacji wokół serwisu.

Nie będę się rozwodził nad poprawną kompilacją samego pliku w tym artykule. W sieci jest wiele przykładów, możesz wejść na blog dowolnego popularnego blogera i dodać /robots.txt na końcu jego domeny w celu weryfikacji. Przeglądarka pokaże swoją wersję, której możesz użyć jako podstawy. Jednak każdy ma swoje wyjątki, więc musisz sprawdzić zgodność specjalnie dla swojej witryny. Zobacz także opis i przykład poprawny tekst dla bloga WordPress znajdującego się pod adresem:

Mapa witryny: http://twoja witryna/sitemap.xml

Klient użytkownika: Obraz Googlebota

#Google AdSense

Klient użytkownika: Mediapartners-Google*

Agent użytkownika: duggmirror

Nie zezwalaj: /cgi-bin/

Nie zezwalaj: /wp-admin/

Nie zezwalaj: /wp-zawiera/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /wp-content/themes/

Nie zezwalaj: /trackback/

Nie zezwalaj: /karm/

Nie zezwalaj: /komentarze/

Nie zezwalaj: /kategoria/*/*

Nie zezwalaj: */śledzenie/

Nie zezwalaj: */pasza/

Nie zezwalaj: */komentarze/

Zezwól: /wp-content/uploads/

Istnieją pewne różnice w kompilacji i dalszej weryfikacji pliku robots.txt dla głównych wyszukiwarek Runetu. Poniżej podam przykłady, jak sprawdzić w panelach Yandex Webmaster i Google.

Po skompilowaniu pliku i przesłaniu go do katalogu głównego witryny przez FTP należy sprawdzić, czy jest zgodny, na przykład z wyszukiwarką Yandex. W ten sposób dowiemy się, czy przypadkiem nie zamknęliśmy tych stron, dzięki którym odwiedzający trafią do Ciebie.

Sprawdzanie robots.txt w panelu Yandex Webmaster

Musisz mieć konto w panelu Yandex Webmaster. Wchodząc do narzędzi i określając swoją witrynę, po prawej stronie pojawi się lista dostępnych funkcji. Przejdź do zakładki „Sprawdź plik robots.txt”

Określ swoją domenę i kliknij „Pobierz plik robots.txt z witryny”. Jeśli skompilowałeś plik, który określa osobno dla każdego? wyszukiwarka, musisz wybrać linie dla Yandex i skopiować je do pola poniżej. Przypominam, że dyrektywa Host: dotyczy Jand., więc nie zapomnij wpisać jej w pole do weryfikacji. Pozostaje sprawdzić robots.txt. przycisk po prawej stronie.

Dosłownie natychmiast zobaczysz analizę Yandex pod kątem zgodności z plikiem robots.txt. Poniżej będą linie, które Yand. przyjęte do rozpatrzenia. I spójrz na wyniki testu. Dyrektywy są wskazane po lewej stronie adresu URL. Po prawej jest sam wynik. Jak widać na zrzucie ekranu, napis w kolorze czerwonym będzie prawidłowy - zakazany przez regułę, a sama reguła jest wskazana. Jeśli określiłeś dyrektywę do indeksowania, zobaczymy kolor zielony - jest to dozwolone.

Po sprawdzeniu pliku robots.txt będziesz mógł poprawić swój plik. Polecam również sprawdzenie stron serwisu. Wklej adres URL pojedynczego wpisu w polu /Lista adresów URL/. A na wyjściu otrzymujemy wynik - dozwolony. Możemy więc osobno sprawdzić zakazy dotyczące archiwów, kategorii i tak dalej.

Nie zapomnij zasubskrybować, w następnym artykule planuję pokazać, jak zarejestrować się za darmo w katalogu Mail.ru. Nie przegap, .

Jak sprawdzić w Yandex Webmasters.

Sprawdź plik robots.txt w panelu Google Webmasters

Wchodzimy na Twoje konto i patrzymy po lewej stronie /Status/ - /Zablokowane adresy URL/

Tutaj zobaczymy jego obecność i możliwość jego edycji. Jeśli chcesz sprawdzić całą witrynę pod kątem zgodności, podaj adres w polu poniżej strona główna. Możliwe jest sprawdzenie, jak różne roboty Google widzą Twoją witrynę, biorąc pod uwagę sprawdzenie pliku robots.txt

Oprócz głównego bota Google wybieramy również robota specjalizującego się w różne rodzaje treść (2). Zrzut ekranu poniżej.

Googlebot
Obraz Googlebota
Mobilny Googlebot
Mediapartners-Google – Dane dotyczące AdSense
AdsBot-Google — kontrola jakości strony docelowej

Nie znalazłem wskaźników dla innych robotów Google:

Wideo Googlebota
Wiadomości o Googlebocie

Analogicznie do sprawdzenia pliku robots.txt w panelu Yandex istnieje również możliwość przeanalizowania osobnej strony serwisu. Po sprawdzeniu zobaczysz wynik osobno dla każdego bota wyszukującego.

Pod warunkiem, że wyniki kontroli Ci nie odpowiadają, wystarczy kontynuować edycję. I dalsza weryfikacja.

Analizuj plik robots.txt online

Oprócz tych funkcji możesz również przeanalizować plik robots.txt za pomocą usługi online. Te, które znalazłem, są w większości anglojęzyczne. Podobała mi się ta usługa. Po analizie zostaną podane zalecenia dotyczące jej korekty.

tool.motoricerca.info/robots-checker.phtml

To wszystko. Mam nadzieję, że sprawdzenie pliku robots.txt oczami Yandex i Google Cię nie zdenerwowało? Jeśli zauważysz niezgodność z twoimi pragnieniami, zawsze możesz edytować, a następnie ponownie przeanalizować. Dziękujemy za tweeta na Twitterze i polubienie na Facebooku!

Zasady tworzenia

Weryfikacja pliku

Sprawdzanie w Yandex.Webmaster

Testowanie w Google Robots Testing Tool

Pamiętać

Co zrobic nastepnie?

Czy ustawienie robots.txt jest naprawdę takie ważne?

Gdzie znajduje się plik robots.txt?

Jak sprawdzić, czy robot będzie indeksować określony adres URL?

Jak śledzić zmiany w plikach

Pytania i odpowiedzi

użycie cyrylicy

Jak stworzyć robots.txt

Pytania i odpowiedzi

Sprawdzając robots.txt, dlaczego to ważne?

Sprawdzanie robots.txt w panelu Yandex Webmaster

Sprawdź plik robots.txt w panelu Google Webmasters

Analizuj plik robots.txt online

Powiązana zawartość: