Suchmaschinen beschäftigen sich, wenn man es auf den Punkt bringt, mit der Beschaffung (Wiederbeschaffung) verloren gegangener Daten.
Suchmaschinen sind indexbasierte Softwareprogramme, die völlig automatisch das World Wide Web durchsuchen. Das Wichtigste aber ist, das Suchmaschinen das Kernelement bei der Recherche im Netz darstellen. Suchmaschinen bringen also Ordnung ins Internet.
Betrachtet man die Flut von Daten, die die Suchmaschinen zu bewältigen haben, wird auch schnell deutlich, dass diese Arbeit ein sehr intensiver Job ist.
Google alleine listet zurzeit ca 8 Milliarden Websites mit Inhalten verschiedenster Art.
Von Menschenhand ist das schon lang nicht mehr zu erledigen.
Also bedienen sich Google und Co. der Hilfe von Software, welche diese Aufgabe bewältigt. Es kommen hier im Prinzip 3 Etappen bei dieser doch recht schwierigen
Aufgabe zum Einsatz.
1.Der Suchroboter (Webcrawler, Searchbot, Agentsoftware, Spider etc.). Er kümmert sich um das Auffinden von Daten im weltweiten Netz. Diese Software folgt dabei den Hyperlinks und indiziert neu gefundene Daten und Dokumente. Die Art und Weise, wie diese Programme ihre Arbeit verrichten, ist dabei oft unterschiedlich. Manche Crawler indizieren den Titel, andere wiederum die ersten Textabsätze oder auch jedes Wort des Dokuments.
2.Als zweite Instanz kommt die Indizierungssoftware zum Einsatz. Sie nimmt die Suchergebnisse der Crawler entgegen und schreibt diese in eine Indextabelle. In dieser Tabelle sind Worte der indizierten Seite in einer Ja-Nein-Struktur gelistet. Vorrangig deshalb, um natürlich Platz zu sparen. Außerdem werden Datenbestände auf diese Weise sehr schnell und effizient durchsuchbar.
3.Nun zum dritten Bestandteil, der Abfragesoftware. Diese nimmt wiederum die Suchanfragen des Servers entgegen und leitet sie an den Datenserver weiter. Übrigens von diesen Servern besitzt Google über 1000.000. Das ist eine enorme Menge. Die Grundlage hierfür bildet eine CGI – Schnittstelle. Das Ergebnis wird dann als HTML Dokument an den Webserver gesendet, welcher letztendlich die Ergebnisliste präsentiert.
Weil eine Suchmaschine mit einer Datenbank arbeitet, ist zu beachten, dass in aller Regel nach exakten Zeichenketten gesucht wird.
Wir sprachen eingangs von 8 Milliarden Pages, die derzeit bei Google indiziert sind. Folgendes wird nun noch als Schlussfolgerung deutlich.
Auch wenn die Suchmaschinen heut zutage unglaublich leistungsfähig sind, wird klar, dass selbst die beste Suchmaschine nur einen kleinen Teil der tatsächlich existierenden Websites erfassen kann.
Wenn also eine Suchanfrage von Ihnen gestartet wird, dann durchsuchen die Suchmaschinen nicht wirklich das gesamte Netz, sondern nur die jenigen Seiten, welche diese Suchmaschinen bereits indiziert haben.