filtri:

Crawler può considerare o scartare un URL basato su alcune regole di filtro. Queste regole sono le seguenti

  1. filtrare gli URL
  2. digiti un URL di file Filtro
  3. Filtro Get gli URL dei parametri

1. filtrare gli URL

regole di filtraggio

Si può mettere modello url su cui tutti gli URL vengono filtrati dalla scansione o in alternativa crawler analizzerà solo quelle degli URL. Per aggiungere filtri, clicca su “Aggiungere stringhe” pulsante. Ogni schema corde url aggiunto ha due opzioni – “saranno ignorati” e “Non saranno ignorati” il che significa crawler prenderà in considerazione o scartare corrispondenza degli URL da ottenere strisciato. per ex. Se il sito supporta sia HTTP e HTTPS e / o il vostro sitemap contiene sia HTTP e HTTPS URL e si desidera escludere gli URL HTTP per indicizzazione. Questo può essere fatto in entrambi i casi:

  • Non scansionare http:// URL e comprendono tutto il resto

URL rigetti avente reticolo

  • solo strisciare https:// URL e di escludere tutto il resto

elenco dei filtri positiva

Entrambe le opzioni sono valide e crawler expertrec seguirà in allo stesso modo. Ultimo controllo per “URL non corrispondente ad un qualsiasi modello di cui sopra” deve esattamente opposto di regole definite. Se le regole definite costituiti da filtri negativi – soprattutto per scartare gli URL, poi ultimo controllo deve essere in stato di “Non saranno ignorati”. Se le regole definite sono costituiti da filtri positivi, poi ultimo controllo deve essere in stato di “saranno ignorati”. Non c'è assolutamente alcuna ragione positiva e filtri negativi può comparire in stessa lista dei filtri. Urls saranno prese in considerazione o scartate sulla prima partita in sé. Se prima regola dice di scartare un URL e seguente da considerare per la scansione, poi sarà scartato.

Filtro tipi di file:

Invece di definire regole di URL in base, si può avere direttamente una regola più ampia sulla base di tipi di file come mostrato di seguito.

Filtro tipo di file

Per impostazione predefinita, tranne htmlx filetype tutto sarà strisciato. È possibile attivare particolare tipo / off di file e saranno sottoposti a scansione / scartato rispettivamente del crawler.

Filtro Get gli URL dei parametri:

URL contiene ottenere i parametri in modo da trasmettere i dati alla pagina successiva sempre caricato. E crawler può considerare o scartare gli URL basato su un filtro booleano – Ottenere Filtro parametri, come mostrato di seguito.

URL filtri contenenti parametri ottieni

Se questo flag è abilitato, tutti gli URL contenenti reticolo “?chiave = valore”( come mostrato qui sopra in) saranno prese in considerazione per la scansione. Fa qualche effetto sulla scansione / ricerca ? sì, lo fa. Si può avere un problema nei risultati di ricerca con la differenza negli URL solo, e tutto il resto ( titolo, soddisfare, eccetera) come lo stesso. Al fine di eliminare questo problema, questo flag è molto utile.