Samstag, 12. Januar 2008

technorati skalieren - 100 Millionen täglich indizierte Blogs

Original: http://www.royans.net/arch/2007/10/25/scaling-technorati-100-million-blogs-indexed-everyday/
Autor: Royans Tharakan
Übersetzung: Sebastian Wallroth

Mit der Indizierung von 100 Millionen Blogs mit über 10 Milliarden Objekten und einer Benutzerbasis, die sie alle sechs Monate verdoppelt, ist technorati den meisten anderen Blog-Suchmaschinen weit voraus. Aber technorati ist viel mehr als nur eine Suche und jeder technorati-Benutzer kann Dir das erläutern. Ich empfehle, John Newtons Interview mit David Sifry zu lesen, dass ich faszinierend fand. Hier ein paar Höhepunkte aus diesem Interview, wenn Du nicht die Zeit hast, das ganze Ding zu lesen.

Gegenwärtiger Stand von technorati

  • 1 Terabyte Inhalt kommen pro Tag hinzu
  • 100 Millionen Blogs
  • 10 Milliarden Objekte
  • 0,5 Milliarden Fotos und Videos
  • Datenverdopplung alle sechs Monate
  • Benutzerverdopplung alle sechs Monate

Die erste Version war dafür vorgesehen, für eine gewisse Zeit für wenig Geld Informationen zu tracken.

  • Diese Version tat alles in eine relationale Datenbank, was ausreichte, solange die Größe des Indexes kleiner war als der physikalische Speicher
  • Es funktionierte gut bis etwa 20 Millionen Blogs

Die nächste Generation zog Vorteil aus der Parallelisierung.

  • Die Daten wurden in Shards aufgebrochen
  • Die Daten wurden häufig zwischen den Servern synchronisiert
  • Die Datenbankgröße erreichte die größte bekannte OLTP-Größe.

    • Daten Schreiben und Lesen hielten sich sie Waage
    • Die Verwaltung der Datenintegrität war wichtig

      • So kam viel Druck auf das System



Die dritte Generation

  • Die Shards entwickelten sich weiter

    • Die Shards basierten jetzt auf Zeiten statt auf URLs
    • Inhalte wurden in spezielle Datenbank verschoben, anstatt sie in einer relationalen Datenbank zu halten

  • Nichts wurde gelöscht
  • Es wurden nur Shards bewegt und für Hinzugekommenes wurden neue Shards verwendet

Verwendete Werkzeuge

  • Green Plum - ermöglicht Firmen, für eine genaue Analyse schnell auf große Mengen kritischer Daten zuzugreifen. Entworfen für hohe Leistung und groß skalierende Business Intelligence besteht Greenplums Familie von Datenbankprodukten aus Lösungen für Installationen von Abteilungs-Datamarts bis zu Multi-Terabyte-Data Warehouses.

Hätte früher gemacht werden sollen

  • Man hätte sich für Klickstromanalyse-Software interessieren sollen, um zu analysieren, was Klicks mit den Benutzern

    • Aussagen, wieviel Zeit die Benutzer mit einem Feature zubringen

Kommentar veröffentlichen