
Other interesting pages - andere interessante Seiten pa - pb
PageRank
aus Wikipedia, der freien Enzyklopädie
Der PageRank-Algorithmus ist ein Verfahren, eine Menge verlinkter Dokumente,
wie beispielsweise das World Wide Web, anhand ihrer Struktur zu bewerten
bzw. zu gewichten. Dabei wird jedem Element ein Gewicht, der PageRank,
aufgrund der Verlinkungsstruktur zugeordnet. Der Algorithmus wurde von
Larry Page (daher der Name PageRank) und Sergey Brin an der Stanford
University entwickelt und von dieser patentiert[1]. Er diente Google,
dem von Brin und Page gegründeten Unternehmen, als Grundlage für
die Bewertung von Seiten.
Das Grundprinzip lautet: Je mehr Links auf eine Seite verweisen, umso
höher ist das Gewicht dieser Seite. Je höher das Gewicht der
verweisenden Seiten ist, desto größer ist der Effekt. Der
PageRank-Algorithmus bildet einen zufällig durch das Netz surfenden
User nach. Die Wahrscheinlichkeit, mit der dieser auf eine Webseite
stößt, korreliert mit dem PageRank.
Der PageRank-Algorithmus
Das Prinzip des PageRank-Algorithmus ist, dass jede Seite ein Gewicht
(PageRank) besitzt, das umso größer ist, je mehr Seiten (mit
möglichst hohem eigenem Gewicht) auf diese Seite verweisen. Das
Gewicht PRi einer Seite i berechnet sich also aus den Gewichten PRj
der auf i verlinkenden Seiten j. Verlinkt j auf insgesamt Cj verschiedene
Seiten, so wird das Gewicht von PRj anteilig auf diese Seiten aufgeteilt.
Folgende rekursive Formel kann als Definition des PageRank-Algorithmus
angesehen werden:
P\!R_i = \frac {1-d} {N} + d \, \sum_{\forall j \in \{(j,i)\}} {\frac
{P\!R_j} {C_j}}
Dabei ist N die Gesamtanzahl der Seiten und d ein Dämpfungsfaktor
zwischen 0 und 1, mit dem ein kleiner Anteil des Gewichts (1 - d) einer
jeden Seite abgezogen und gleichmäßig auf alle Seiten verteilt
wird. Dies ist notwendig, damit das Gewicht nicht zu Seiten abfließt,
die auf keine andere Seite verweisen. Oft wird obige Formel auch ohne
den Normierungsfaktor 1 / N angegeben.
Die Gleichung kann sowohl als Eigenvektorproblem der Matrix
M_{\mathrm{EV} \,ij} = \frac {1-d} {N} + d \, T_{ij} \ ,
T_{ij} = \begin{cases} 1 / C_j, & \mbox{falls Seite }j\mbox{ zu
Seite }i\mbox{ linkt} \\ 0, & \mbox{sonst} \end{cases}
als auch (für d < 1) als Lösung des linearen Gleichungssystems
M_{ij}\, P\!R_j = \frac {1-d} {N}
mit
M_{ij} = \delta_{ij} - d \, T_{ij}
interpretiert werden, wobei ?ij das Kronecker-Delta bezeichnet. Die
Lösung des linearen Gleichungssystems
P\!R_i = \frac {1-d} {N} \sum_j {M^{-1}}_{ij}
kann analytisch oder numerisch erfolgen. Für d < 1 ist die
Lösung des Gleichungssystems eindeutig. Durch Verwendung der Jacobi-Iteration
zur numerischen Lösung ergibt sich obige rekursive Gleichung. Andere
numerische Verfahren zur Matrixinvertierung, wie das Minimale-Residuum-Verfahren
oder die Gauss-Seidel-Methode, konvergieren jedoch in der Regel schneller.
Der heute von Google verwendete Algorithmus hat vermutlich nicht mehr
exakt diese Form, geht aber auf diese Formel zurück. Alternative
Algorithmen sind das Verfahren der Hubs und Authorities von Jon Kleinberg,
der Hilltop- und der TrustRank-Algorithmus.
Zufallssurfer-Modell
Normiert man den PageRank auf 1, so kann man das Gewicht einer Seite
als Wahrscheinlichkeit interpretieren, dass ein zufälliger Surfer
(siehe Zufallspfad) sich auf dieser Seite befindet. Ein zufälliger
Surfer bewegt sich dabei wie folgt durch das Netz: Mit Wahrscheinlichkeit
d wählt er zufällig einen ausgehenden Link der aktuellen Seite;
mit Wahrscheinlichkeit 1 - d wählt er eine beliebige neue Seite.
Um Probleme mit Seiten ohne ausgehende Links zu vermeiden, können
bei diesen Links zu allen vorhandenen Seiten hinzugefügt werden.
Toolbar- und Verzeichnis-Werte
Informationen über den PageRank lassen sich aus der Google-Toolbar
und dem Google-Verzeichnis entnehmen. Der von Google in der Toolbar
angezeigte PageRank liegt zwischen 0 und 10, der Wert im Verzeichnis
zwischen 0 und 7. Beide Werte bilden den realen PageRank auf einer logarithmischen
Skala ab und geben das Ergebnis als gerundeten ganzzahligen Wert wieder.
Der in der Google-Toolbar angezeigte PageRank wurde früher alle
dreißig Tage aktualisiert. Inzwischen ist das Intervall zwischen
den Updates angestiegen, auf teilweise mehr als hundert Tage.
PageRank
- Seo
Manipulation
Aufgrund der wirtschaftlichen Bedeutung ist es inzwischen zu gezielten
Manipulationen und Fälschungen gekommen. So wurde dieses sinnvolle
System in der Praxis von Suchmaschinenoptimierern durch Gästebuch-,
Blog- und Forum-Spamming, dem Betreiben von Linkfarmen und anderen unseriösen
Methoden unterlaufen. Durch Weiterleitung auf bestehende Seiten mit
hohem PageRank wird gezielt versucht, die Anzeige in der Google-Toolbar
zu manipulieren.
Anfang 2005 implementierte Google ein neues Attribut, rel="nofollow",
für Verweise. Dies ist ein Versuch, gegen Spam vorzugehen. Links,
die mit diesem Attribut versehen werden, werden nicht für die PageRank-Berechnung
berücksichtigt. Durch Kennzeichnung ausgehender Links kann so beispielsweise
dem Gästebuch-, Blog- und Forum-Spamming entgegengewirkt werden.
Allerdings ist diese Methode, Spam zu verhindern, umstritten.
Geschichte
Die Idee des PageRank-Algorithmus stammt ursprünglich aus der
Soziometrie und lässt sich in der Fachliteratur erstmalig 1953
bei Katz nachweisen. Bereits 1949 verwendete Seelay das Verfahren zur
Erklärung des Zustandekommens des Status eines Individuums, allerdings
gibt es in seiner Beschreibung noch keine Normierung auf die Anzahl
der ausgehenden Kanten und keinen Dämpfungsterm. Letzterer wurde
1965 von Charles H. Hubbell eingeführt.
Kritik
Die Nachteile von PageRank im Überblick:
* Finanziell Starke können sich Backlinks erkaufen, und werden
in Suchergebnissen höher positioniert. Dies führt dazu, dass
statt qualitativ hochwertigem Inhalt oft die finanziellen Möglichkeiten
über die Reihenfolge der Suchergebnisse entscheiden.
* Webmaster sehen oft im PageRank das einzige Bewertungskriterium für
den Linktausch. Der Inhalt der verlinkten Seiten gerät in den Hintergrund.
* In neuester Zeit werden Methoden weitaus wichtiger, die eine qualitative
Messung von Webseiten durchführen. Hierzu kann der PageRank keinen
Beitrag liefern.
Artikel PageRank. In: Wikipedia, Die freie Enzyklopädie.
Bearbeitungsstand: 4. Mai 2007, 13:54 UTC. URL: http://de.wikipedia.org/w/index.php?title=PageRank&oldid=31353709
(Abgerufen: 7. Mai 2007, 10:56 UTC)
lings
|