Zuerst generieren wir eine Warteschlange mit URLs, die entscheidet, welche Seiten gecrawlt werden.
Dann schwärmen unsere Crawler aus und untersuchen diese Seiten. Wenn sie Hyperl inks identifizieren, die von diesen Seiten auf andere Orte im Internet verweisen, speichern sie diese Informationen.
Als Nächstes gelangten diese Daten früher in einen temporären Speicher, der sie für einen bestimmten Zeitraum aufbewahrte, bevor sie in den öffentlich zugänglichen Speicher verschoben wurden, den jeder Semrush-Nutzer im Tool sehen kann.
Mit dem neuen Build haben wir den Zwischenschritt mit dem temporären Speicher praktisch eliminiert, das Dreifache an Crawlern eingesetzt und vor der Warteschlange eine Reihe von Filtern eingeschaltet, sodass der gesamte Prozess viel schneller und effizienter ist.
Manche müssen häufiger gecrawlt werden, andere überhaupt nicht. Daher verwenden wir eine Warteschlange, die entscheidet, in welcher Reihenfolge URLs zum Crawlen übermittelt werden.
Ein häufiges Problem besteht bei diesem Schritt darin, dass zu viele ähnliche, irrelevante URLs gecrawlt werden, was dazu führen kann, dass Nutzer mehr Spam und weniger individuelle verweisende Domains sehen.
Zur Optimierung der Warteschlange haben wir Filter hinzugefügt, die einzigartige Inhalte sowie Websites mit höherer Autorität priorisieren und vor L inkfarmen schützen. Dadurch findet das System jetzt mehr eindeutigen Co ntent und generiert weniger Berichte mit doppelten L inks.
Einige Eckpunkte der neuen Funktionsweise:
Um unsere Warteschlange vor L inkfarmen zu schützen, prüfen wir, ob eine große Anzahl von Domains zur selben IP-Adresse gehört. Wenn wir zu viele Domains von derselben IP-Adresse erfassen, wird ihre Priorität in der Warteschlange verringert. Dadurch können wir mehr Domains von verschiedenen IP-Adressen crawlen, ohne an einer L inkfarm hängen zu bleiben. Um Websites zu schützen und ein Überfrachten unserer Berichte mit ähnlichen L inks zu vermeiden, prüfen wir, ob zu viele URLs von derselben Domain erfasst wurden. Wenn wir zu viele URLs von derselben Domain sehen, werden sie nicht alle am selben Tag gecrawlt. Um sicherzustellen, dass wir neue Seiten so schnell wie möglich erfassen, haben alle URLs eine höhere Priorität, die wir zuvor noch nicht gecrawlt haben. Jede Seite verfügt über einen eigenen Hash-Code, der uns hilft, das Crawlen eindeutiger Inhalte zu priorisieren. Wir berücksichtigen, wie oft auf der Quellseite neue L inks generiert werden. Wir berücksichtigen den Authority Score einer Webseite und Domain. Wie die Warteschlange verbessert wurde
Mehr als 10 verschiedene Faktoren, um unnötige L inks herauszufiltern. Mehr einzigartige und qualitativ hochwertige Seiten dank der neuen Algorithmen zur Qualitätskontrolle. Unsere Crawler folgen internen und externen L inks im Internet, um neue Seiten mit L inks zu finden. Daher können wir eine Seite nur finden, wenn ein L ink auf sie verweist.
Bei der Überprüfung unseres vorherigen Systems haben wir eine Chance gesehen, die Gesamt-Crawling-Kapazität zu erhöhen und bessere Inhalte zu finden - die Inhalte, die Website-Betreiber in unserer Datenbank vorfinden möchten.
Was haben wir getan?
Die Anzahl unserer Crawler verdreifacht (von 10 auf 30) Das Crawlen von Seiten mit URL-Parametern beendet, die keinen Einfluss auf den Seiteninhalt haben (& sessionid, UTM usw.) Die Häufigkeit des Auslesens von robots.txt-Dateien auf Websites und Befolgen von den darin enthaltenen Direktiven erhöht Wie die Crawler verbessert wurden
Mehr Crawler (nun 30!) Saubere Daten ohne minderwertige oder doppelte L inks Besser darin, die relevantesten Inhalte zu finden Crawl-Geschwindigkeit von 25 Milliarden Seiten pro Tag Im Speicher befinden sich alle L inks, die du als Semrush-Nutzer sehen kannst. Der Speicher zeigt die L inks zu dir im Tool und bietet Filter, die du anwenden kannst, um das Gesuchte zu finden.
Das Hauptproblem unseres alten Speichersystems war, dass es beim Update vollständig neu geschrieben werden musste. Es wurde also alle 2-3 Wochen neu geschrieben und der Prozess begann von vorne.
So haben sich während des Updates neue L inks im Zwischenspeicher angesammelt und wurden erst verzögert für die Nutzer sichtbar. Wir wollten sehen, ob wir die Geschwindigkeit bei diesem Schritt verbessern konnten.
Was haben wir getan?
Wir haben die Architektur von Grund auf neu geschrieben. Um den Bedarf nach temporärer Speicherung zu eliminieren, haben wir die Anzahl unserer Server um mehr als das Vierfache erhöht. 400 %.
Dies nahm über 30.000 Stunden Entwicklerarbeit in Anspruch, um die neuesten Technologien zu implementieren. Nun haben wir ein skalierbares System, das weder jetzt noch in Zukunft an Grenzen stößt.
Wie der Speicher verbessert wurde
500+ Server insgesamt 287 TB RAM-Speicher 16.128 Kerne 30 PB Gesamtspeicherplatz Blitzschnelle Filterung und Berichterstellung DIREKTES UPDATE - kein temporärer Speicher mehr In einer zweiteiligen Studie haben wir die Geschwindigkeit unseres Backl ink-Analytics mit Moz, Ahrefs und Majestic verglichen.
Wenn du genau erfahren willst, wie viel schneller unser Tool im Vergleich zu den anderen SEO-Tools auf dem Markt ist, kannst du diesen Blogartikel lesen.
Wir sind so stolz auf unsere neue Backl ink-Analytics-Datenbank, dass wir allen die Chance geben wollen, selbst zu erleben, was sie zu bieten hat.
Erhalte KOSTENLOS Zugang, indem du dich einfach für ein kostenloses Semrush-Ko nto anmeldest, und der ganze Bereich Backl ink-Analytics steht dir zur Verfügung.
Probiere es aus und lass uns deine Meinung wissen!