filtres:

Crawler peut considérer ou rejeter une URL basée sur des règles de filtrage. Ces règles sont les suivantes

  1. Filtrer les URL
  2. le type de fichier de filtre URL
  3. Filtre Obtenir paramètres urls

1. Filtrer les URL

Règles de filtrage

Vous pouvez mettre motif URL sur lequel tous les urls correspondant seront filtrés d'être rampé ou encore crawler analyse uniquement les urls. Pour ajouter des filtres, cliquer sur “Ajouter des chaînes” bouton. Chaque modèle de chaîne url ajoutée a deux options – “seront ignorés” et “ne seront pas ignorés” crawler signifie considérera ou jeter correspondant urls de se rampé. ex. Si votre site prend en charge les protocoles HTTP et HTTPS urls et / ou votre sitemap contient à la fois HTTP et HTTPS urls et que vous voulez omettre http urls en cours d'analyse. Cela peut se faire de toute façon:

  • ne pas ramper http:// urls et comprennent tout le reste

rejet URL de motif ayant

  • crawl uniquement https:// urls et exclure tout autre

liste de filtres positifs

Les deux options sont valides et crawler expertrec suivra de la même façon. Dernière vérification pour “URL ne correspond pas au-dessus de tout motif” doit exactement à l'opposé des règles définies. Si les règles définies consistent en des filtres négatifs – la plupart du temps pour jeter les urls, puis la dernière vérification doit être en état “ne seront pas ignorés”. Si les règles définies sont constitués de filtres positifs, puis la dernière vérification doit être en état “seront ignorés”. Il n'y a absolument aucune raison de filtres positifs et négatifs peuvent apparaître dans la même liste de filtres. Urls seront considérés ou mis au rebut le premier match de lui-même. Si la première règle dit défausser une URL et à côté d'envisager pour l'exploration, alors il sera mis au rebut.

filtre Filetypes:

Au lieu de définir des règles à base d'url, vous pouvez directement une règle plus large en fonction des types de fichiers comme indiqué ci-dessous.

Filtre Type de fichier

Par défaut, sauf htmlx filetype tout sera rampé. Vous pouvez activer / désactiver le type de fichier particulier et ils seront rampé / mis au rebut par chenilles respectivement.

Filtre Obtenir paramètres urls:

URL contient les paramètres obtenir afin de transmettre des données à la page suivante se charge. Et crawler peut considérer ou rejeter urls basée sur un filtre booléen – Obtenez Paramètre de filtre, comme indiqué ci-dessous.

urls de filtre contenant des paramètres get

Si ce drapeau est activé, toutes les URL contenant des motifs “?key =”( comme indiqué ci-dessus dans l'image) seront pris en considération pour l'exploration. Est-il un effet sur vide sanitaire / recherche ? Oui, Cela fait. Vous pouvez avoir un problème dans les résultats de recherche avec une différence de seulement urls, et tout le reste ( Titre, contenu, etc) en même. Afin de se débarrasser de ce problème, ce drapeau est très utile.