Wie funktioniert eine Suchmaschine?

Zunächst muss man sich klar machen, dass Suchmaschinen nicht das komplette Internet durchsuchen, sondern nur einen Teil davon, das World Wide Web. Andere Dienste im Internet sind z.B. E-Mail, Datenübertragung (FTP), Chats oder Internettelefonie. Auch das WWW kann nicht komplett durchsucht werden. So sind prinzipiell nur jene Webseiten für Suchmaschinen auffindbar, die öffentlich zugänglich sind. Näheres zu den Einschränkungen von Suchmaschinen steht im nächsten Kapitel „Vollständigkeit: Welche Seiten führt der Suchindex auf?“.
Die Durchführung einer Suche im WWW ist technisch komplizierter, als sie sich dem Nutzer auf den ersten Blick darstellt. Im Grunde laufen drei Vorgänge ab, um eine Suchanfrage beantworten zu können:

1. Erfassung
Suchmaschinen erfassen laufend neue und veränderte Informationen im World Wide Web. Dies geschieht durch sogenannte Crawler (auch Spider oder Suchroboter genannt). Ein Crawler ist ein System aus Soft- und Hardware, das systematisch und kontinuierlich das Internet durchsucht, die auf den Internetseiten vorhandenen Informationen einsammelt und diese dann auf Servern abspeichert.

2. Informationsaufbereitung und Indizierung
Diese Sammlung von Daten wird nun so aufbereitet, dass effizient ein Index erstellt werden kann. Der Index ist der Kern jeder Websuchmaschine.
Er ist vergleichbar mit dem Stichwortregister eines Buches. Der Suchmaschinen-Index enthält einerseits Index-Begriffe, andererseits die Informationen darüber, auf welchen Internetseiten die Begriffe vorkommen. Der Suchindex ist also ein virtuelles Verzeichnis, das Milliarden von Begriffen und Verweise auf Webseiten umfasst.

3. Informationsbereitstellung
Für jede Suchanfrage wird somit nicht mehr das gesamte Internet durchsucht, sondern nur noch dieser Index, da dieser besonders schnell und effizient durchsucht werden kann. Abschließend werden die für die Suchanfrage relevantesten Ergebnisse in einer Liste dargestellt.

Fünf Schritte bis zum Ergebnis

Für den Anwender spielt es keine große Rolle, was hinter den Kulissen geschieht, aber dennoch ist es für das Verständnis von Suchmaschinen interessant zu wissen, wie eine Suche eigentlich abläuft.

Schritt 1: Eingabe der Suchanfrage

Dieser Schritt ist für den Nutzer sichtbar.
Die Suche beginnt mit der Eingabe eines Suchbegriffs, z.B. [Berlin], in das Suchfeld.

Schritt 2: Die Suche nach dem richtigen Datenzentrum

Dieser Schritt ist für den Nutzer unsichtbar.
Suchmaschinenbetreiber unterhalten weltweit Datenzentren mit Servern, auf denen der Index gespeichert ist. Im Hintergrund werden sofort ein oder mehrere Datenzentren ausgewählt. Bei der Auswahl des richtigen Datenzentrums spielen räumliche Nähe, Geschwindigkeit und Auslastungsgrad eine entscheidende Rolle.

Schritt 3: Der Suchlauf durch den Index

Dieser Schritt ist für den Nutzer unsichtbar.
Bei großen Suchmaschinen ist der Index speziell für eine parallele Abfrage gebaut. Dadurch muss jeder Server nur einen Teil der Suche durchführen und gemeinsam kann so der gesamte Index schneller durchsucht werden. Eine Suchmaschine sucht genau genommen nicht nach einem bestimmten Wort, sondern nach Buchstabenmustern.
Nachdem der Suchlauf durchgeführt und das erste Suchergebnis zusammengestellt ist, muss deshalb noch einmal eine Überprüfung durchgeführt werden. Vielleicht hat sich der Nutzer ja vertippt und wollte etwas ganz anderes suchen? Kann man das Wort auch auseinanderschreiben? Die Suchmaschine versucht, dies nachzuvollziehen, und zeigt bei Bedarf einen besseren Suchvorschlag an. Bei der Eingabe von [berln] wird beispielsweise [Berlin] vorgeschlagen.

Schritt 4: Der Suchlauf nach dem richtigen Dokument

Dieser Schritt ist für den Nutzer unsichtbar.
Die Index-Server enthalten ausschließlich Wörter und Adressen. Sie verweisen auf die sogenannten Doc-Server. Auf den Doc-Servern liegen der Titel, Textauszüge und weitere Daten aus den in der Informationsaufbereitungsphase (siehe oben) gespeicherten Dokumenten. Diese Informationen sind zum einen für die Ausgabe nützlich (z.B. für die kurzen Textauszüge unter den Adressen, genannt Snippets), zum anderen sind sie die Grundlage für den PageRank-Algorithmus (siehe "Wie kommt ein Ranking zustande?").
Eine Maßnahme, um den Suchablauf hinter den Kulissen trotz dieses komplexen Verfahrens zu beschleunigen, besteht darin, Ergebnisse häufiger Suchanfragen wie z.B. [Berlin] zwischenzuspeichern, d.h. nicht jedes Mal aufs Neue den Index zu durchsuchen, sondern auf bereits „fertige“ Suchergebnisse zurückzugreifen.

Schritt 5: Ausgabe der Suchergebnisse

Dieser Schritt ist für den Nutzer sichtbar.
Im letzten Schritt müssen die Suchinformationen nun noch nutzerfreundlich angezeigt werden.
Schließlich sollen auf den ersten Blick die wichtigsten Internetseiten für den eingegebenen Suchbegriff erkennbar sein. Im Allgemeinen klickt der Nutzer eines der ersten zehn Suchergebnisse an, Ergebnisse, die weiter unten in der Liste auftauchen (also auf nachfolgenden Seiten) werden seltener angeklickt. Die Reihenfolge der Treffer („Ranking“) wird durch einen Algorithmus festgelegt.