|
Trustrank 
Trustrank est une analyse du lien technique décrite dans un document par l'Université de Stanford et Yahoo! Chercheurs pour les semi-automatiquement la séparation utile des pages Web à spam. [1]
Beaucoup de spam pages Web sont créés seulement avec l'intention d'induire en erreur les moteurs de recherche. Ces pages, créé principalement pour des raisons commerciales, utiliser diverses techniques pour atteindre plus élevé que méritée classement sur les moteurs de recherche "les pages de résultats. Alors que des experts humains peuvent facilement identifier le spam, il est trop coûteux pour évaluer manuellement un grand nombre de pages.
Une méthode populaire pour l'amélioration de classement est d'accroître artificiellement la perception de l'importance d'un document par le biais de régimes complexes liant. Google s PageRank et des méthodes similaires pour déterminer l'importance relative de documents Web ont été soumis à la manipulation.
Trustrank appels de méthodes de sélection d'un petit nombre de semences pages qui doivent être évalués par un expert. Une fois la réputation de semences pages sont identifiés manuellement, une exploration extension vers l'extérieur à partir des semences vise à fixer de même fiable et digne de confiance pages. Trustrank la fiabilité diminue à mesure que d'autres documents seront retirés de l'ensemble des semences.
Les chercheurs qui a proposé la méthodologie trustrank ont continué à affiner leurs travaux par l'évaluation des sujets connexes, tels que l'évaluation spam de masse.
Définition
TrustRank est à la fois le nom d'un algorithme cherchant à réduire le Spam dans les moteurs de recherche et une marque déposée par Google en Mars 2005.
Description
Le 16 Mars 2005, Google a déposé aux Etats-Unis la marque TrustRank. Le TrustRank est-il censé remplacer le fameux PageRank ? Difficile de savoir pour l'instant ce que Google veut faire du TrustRank.
Dès le 11 Mars 2004, 2 chercheurs (Zoltan Gyongyi et Hector Garcia-Molina) de l'université de Standford (Etats-Unis), celle-là même d'où sont issus les co-fondateurs de Google, Larry Page et Sergey Brin, écrivent avec Jan Pedersen, un chercheur de Yahoo! (un concurrent de Google) un article intitulé "Combating Web Spam with TrustRank". Cet article décrit un algorithme qui a pour objectif de réduire le Spam dans les moteurs de recherche, c'est-à-dire d'améliorer la pertinence des résultats.
L'algorithme du TrustRank propose une méthode semi-automatique de classification des pages web Spam ou pas Spam . Il est basé sur une liste de pages de référence garanties "propres" après une analyse manuelle faite par un humain. Par propagation et analyse des liens entre pages, l'algorithme détermine si les autres pages sont également "propres" ou si au contraire elles sont du Spam en partant du principe que les pages "propres" font très rarement des liens vers des pages de Spam
L'algorithme nécessite une très bonne sélection des sites de référence (une simple liste de 200 sites a donné de bons résultats d'après l'article).
Au final, il attribue une note à chaque page, son TrustRank (TR). Comprise entre 0 Spam et 1 (page de référence), elle indique le degré de confiance que l'on peut attribuer à la page.
Le TrustRank peut être utilisé seul pour filtrer l'index d'un moteur de recherche, ou en complément du PageRank pour aider à classer les résultats d'une recherche.
Google utilise peut-être déjà cet algorithme (ou une variante) depuis des mois... ou bien prévoit de le faire bientôt. Difficile d'être catégorique dans ce domaine.
TrustRank est à la fois le nom d'un algorithme cherchant à réduire le spam dans les moteurs de recherche et une marque déposée par Google en Mars 2005

Le TrustRank de Google
L'algorithme du TrustRank propose une méthode semi-automatique de classification des pages web (spam ou pas spam). Il est basé sur une liste de pages de référence garanties "propres" après une analyse manuelle faite par un humain. Par propagation et analyse des liens entre pages, l'algorithme détermine si les autres pages sont également "propres" ou si au contraire elles sont du spam, en partant du principe que les pages "propres" font très rarement des liens vers des pages de spam.
Il est maintenant confirmé que Google utilise cette notion dans son algorithme. On pense que les sites qui n'ont pas atteint un degré suffisant de TrustRank sont pénalisé et subissent l'effet sandbox.

Mois de Mai 2008 3128711 pages affichées
|