Une toile d'araignée est un programme qui explore l'Internet d'une manière significative spécifique. araignées Web sont utilisés par les moteurs de recherche sur Internet, tels que Google, Yahoo et bien d'autres pour récupérer et indexer le contenu. Mais ils peuvent aussi être utilisés pour recueillir des informations - y compris les adresses e-mail - contenu de l'archive et de générer des statistiques.
Moteurs De Recherche
Le but de moteurs de recherche araignées Web est de faire de la recherche sur Internet aussi rapide et efficace que possible. araignées Web à accéder à des sites Web accessibles au public, copier le contenu dans une base de données et de l'indice sur une base régulière. Cela signifie que lorsque vous entrez une requête dans un moteur de recherche, il peut rechercher rapidement l'indice local et retourne les résultats qui sont les plus applicable à votre requête. Moteur de recherche araignées Web utilisent un ensemble de politiques de comportement pour déterminer la fréquence avec laquelle les sites Web sont visités et les pages Web sont copiés dans la base de données.
Inclusion
Si vous voulez augmenter le profil, ou la visibilité, de votre site Web sur Internet, vous pouvez vous inscrire avec un moteur de recherche. Vous pouvez également utiliser Hypertext Markup Language (HTML) balises, connu sous le nom des balises meta, en haut de chaque page Web pour décrire son contenu et de fournir des mots-clés - un petit ensemble de mots qui véhiculent le sujet du contenu - à un toile d'araignée. Cette information détermine comment votre contenu est indexé dans la base de données du moteur de recherche.
Exclusion
La copie du contenu du site Web par les araignées ne sont pas considéré comme une violation du droit d'auteur aux États-Unis, mais tout de même, vous voudrez peut-être éviter que votre site web en cours d'analyse. Pour ce faire, vous pouvez ajouter un protocole d'exclusion des robots - généralement dans un fichier appelé "robots.txt" - à une page Web. Un protocole d'exclusion des robots indique à une toile d'araignée qu'une page est impropre à ramper ou simplement que son propriétaire ne veut pas qu'il soit analysé. Soyez averti, cependant, qu'il n'y a rien juridiquement contraignant sur les protocoles d'exclusion des robots, et quelques araignées Web sont programmés pour les ignorer complètement.
Autres types d'araignées
Autres types, non-traditionnels d'araignées Web peuvent être utilisés pour prendre un instantané de la teneur de l'Internet à tout moment, ou de générer des statistiques qui permettent au contenu d'être compris. De même, certaines araignées Web peuvent être utilisés pour vérifier la validité du code HTML et de liens hypertexte - mots, des phrases ou des images sur lesquelles les visiteurs peuvent cliquer - sur une page Web. Malheureusement, un autre type de malveillants toile d'araignée peut être utilisé à des adresses e-mail récolte, qui sont utilisés pour générer non sollicité, ou spam, les messages e-mail.