Sitelerin arama motorları tarafından indekslenmesini yönetmek için kullanılan araçlardan biri robots.txt dosyasıdır. Esas olarak, belirli sayfa gruplarının içeriğini tüm veya yalnızca belirli robotların indirmesini önlemek için kullanılır. Bu, arama motoru sonuçlarındaki "çöplerden" kurtulmanıza ve bazı durumlarda kaynağın sıralamasını önemli ölçüde iyileştirmenize olanak tanır. Başarılı bir uygulama için doğru robots.txt dosyasına sahip olmak önemlidir.
Gerekli
Metin düzeltici
Talimatlar
Aşama 1
Özel dışlama kurallarının belirleneceği robotların veya genişletilmiş robots.txt standardının direktiflerinin yanı sıra standart olmayan ve spesifik direktiflerin (belirli bir arama motorunun uzantıları) kullanılacağı robotların bir listesini yapın. Seçilen robotlar tarafından site sunucusuna gönderilen HTTP istek başlıklarının User-Agent alanlarının değerlerini bu listeye girin. Robotların isimleri arama motoru sitelerinin referans bölümlerinde de bulunabilir.
Adım 2
İlk adımda derlenen listedeki robotların her birine erişimin reddedilmesi gereken site kaynaklarının URL gruplarını seçin. Aynı işlemi diğer tüm robotlar için gerçekleştirin (belirsiz bir dizi indeksleme botu). Başka bir deyişle, sonuç, sitenin bölümlerine, sayfa gruplarına veya indekslenmesi yasak olan medya içeriği kaynaklarına bağlantılar içeren birkaç liste olmalıdır. Her liste farklı bir robota karşılık gelmelidir. Diğer tüm botlar için de yasaklanmış URL'lerin bir listesi olmalıdır. Sitenin mantıksal yapısı ile verilerin sunucudaki fiziksel konumunun karşılaştırılmasına dayalı listeler yapın, ayrıca sayfaların URL'lerini bunlara göre gruplandırın. işlevsel özellikleri. Örneğin, herhangi bir hizmet kataloğunun içeriğini (konuma göre gruplandırılmış) veya tüm kullanıcı profili sayfalarını (amaca göre gruplandırılmış) reddetme listelerine dahil edebilirsiniz.
Aşama 3
İkinci adımda derlenen listelerde yer alan kaynakların her biri için URL işaretlerini seçin. Yalnızca standart robots.txt yönergelerini ve tanımsız robotları kullanan robotlar için dışlama listelerini işlerken, maksimum uzunluğun benzersiz URL bölümlerini vurgulayın. Kalan adres grupları için belirli arama motorlarının özelliklerine göre şablonlar oluşturabilirsiniz.
4. Adım
Bir robots.txt dosyası oluşturun. Her biri, listesi ilk adımda derlenen belirli bir robot için bir dizi yasaklama kuralına karşılık gelen yönerge grupları ekleyin. İkincisini, diğer tüm robotlar için bir grup direktif izlemelidir. Tek bir boş satırla ayrı kural grupları. Her kural kümesi, robotu tanımlayan bir User-agent yönergesi ile başlamalı ve ardından URL gruplarının dizine eklenmesini yasaklayan bir Disallow yönergesi gelmelidir. Üçüncü adımda elde edilen satırları Disallow direktiflerinin değerleri ile yapın. Yönergeleri ve anlamlarını iki nokta üst üste ile ayırın. Şu örneği inceleyin: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Bu yönerge seti, ana robota talimat verir. Yandex arama motoru / temp / veri / resimler / alt dizesini içeren URL'yi indekslemez. Ayrıca diğer tüm robotların / temp / data / içeren URL'leri dizine eklemesini de engeller.
Adım 5
Robots.txt dosyasını genişletilmiş standart yönergeler veya belirli arama motoru yönergeleriyle tamamlayın. Bu tür direktiflerin örnekleri şunlardır: Ana Bilgisayar, Site Haritası, İstek oranı, Ziyaret süresi, Tarama gecikmesi.