Semrush Backlink-Update 2021： Wie wir ein brandneues Backlink-Tool entwickelt haben

日期：2024-12-25 作者：cshmhg 移动：http://mip.riyuangf.com/mobile/quote/20749.html

Vor etwa anderthalb Jahren haben wir uns ein Ziel gesetzt.

Semrush Backl<i></i>ink-Update 2021： Wie wir ein brandneues Backl<i></i>ink-Tool entwickelt haben

So war es unser Ziel, die größte, am schnellsten aktualisierte und qualitativ hochwertigste Backlink-Datenbank für unsere Kunden aufzubauen und besser zu sein als die führenden bekannten Wettbewerber auf dem Markt.

Nachdem wir unser Ziel erreicht haben, können wir es kaum erwarten, dass du es selbst ausprobierst!

Alles, was es brauchte, war eine Kombination von ungefähr 16.722 Tassen Kaffee mit mehr als 500 Servern und 30.000 Arbeitsstunden unseres Teams von Ingenieuren und Datenwissenschaftlern.

Ganz einfach, oder?

Sehen wir uns zuerst an, was neu ist, und kommen dann dazu, wie wir das geschafft haben und welche Probleme wir lösen mussten.

Mit erhöhtem Speicherplatz und dreimal mehr Crawlern hat unsere Backlinks-Datenbank nun die Kapazität, noch mehr zu finden, zu indizieren und zu wachsen. Im Durchschnitt crawlen wir jetzt:

Zuerst generieren wir eine Warteschlange mit URLs, die entscheidet, welche Seiten gecrawlt werden.

Dann schwärmen unsere Crawler aus und untersuchen diese Seiten. Wenn sie Hyperlinks identifizieren, die von diesen Seiten auf andere Orte im Internet verweisen, speichern sie diese Informationen.

Als Nächstes gelangten diese Daten früher in einen temporären Speicher, der sie für einen bestimmten Zeitraum aufbewahrte, bevor sie in den öffentlich zugänglichen Speicher verschoben wurden, den jeder Semrush-Nutzer im Tool sehen kann.

Mit dem neuen Build haben wir den Zwischenschritt mit dem temporären Speicher praktisch eliminiert, das Dreifache an Crawlern eingesetzt und vor der Warteschlange eine Reihe von Filtern eingeschaltet, sodass der gesamte Prozess viel schneller und effizienter ist.

Manche müssen häufiger gecrawlt werden, andere überhaupt nicht. Daher verwenden wir eine Warteschlange, die entscheidet, in welcher Reihenfolge URLs zum Crawlen übermittelt werden.

Ein häufiges Problem besteht bei diesem Schritt darin, dass zu viele ähnliche, irrelevante URLs gecrawlt werden, was dazu führen kann, dass Nutzer mehr Spam und weniger individuelle verweisende Domains sehen.

Zur Optimierung der Warteschlange haben wir Filter hinzugefügt, die einzigartige Inhalte sowie Websites mit höherer Autorität priorisieren und vor Linkfarmen schützen. Dadurch findet das System jetzt mehr eindeutigen Content und generiert weniger Berichte mit doppelten Links.

Einige Eckpunkte der neuen Funktionsweise:

Um unsere Warteschlange vor Linkfarmen zu schützen, prüfen wir, ob eine große Anzahl von Domains zur selben IP-Adresse gehört. Wenn wir zu viele Domains von derselben IP-Adresse erfassen, wird ihre Priorität in der Warteschlange verringert. Dadurch können wir mehr Domains von verschiedenen IP-Adressen crawlen, ohne an einer Linkfarm hängen zu bleiben.
Um Websites zu schützen und ein Überfrachten unserer Berichte mit ähnlichen Links zu vermeiden, prüfen wir, ob zu viele URLs von derselben Domain erfasst wurden. Wenn wir zu viele URLs von derselben Domain sehen, werden sie nicht alle am selben Tag gecrawlt.
Um sicherzustellen, dass wir neue Seiten so schnell wie möglich erfassen, haben alle URLs eine höhere Priorität, die wir zuvor noch nicht gecrawlt haben.
Jede Seite verfügt über einen eigenen Hash-Code, der uns hilft, das Crawlen eindeutiger Inhalte zu priorisieren.
Wir berücksichtigen, wie oft auf der Quellseite neue Links generiert werden.
Wir berücksichtigen den Authority Score einer Webseite und Domain.

Wie die Warteschlange verbessert wurde

Mehr als 10 verschiedene Faktoren, um unnötige Links herauszufiltern.
Mehr einzigartige und qualitativ hochwertige Seiten dank der neuen Algorithmen zur Qualitätskontrolle.

Unsere Crawler folgen internen und externen Links im Internet, um neue Seiten mit Links zu finden. Daher können wir eine Seite nur finden, wenn ein Link auf sie verweist.

Bei der Überprüfung unseres vorherigen Systems haben wir eine Chance gesehen, die Gesamt-Crawling-Kapazität zu erhöhen und bessere Inhalte zu finden - die Inhalte, die Website-Betreiber in unserer Datenbank vorfinden möchten.

Was haben wir getan?

Die Anzahl unserer Crawler verdreifacht (von 10 auf 30)
Das Crawlen von Seiten mit URL-Parametern beendet, die keinen Einfluss auf den Seiteninhalt haben (& sessionid, UTM usw.)
Die Häufigkeit des Auslesens von robots.txt-Dateien auf Websites und Befolgen von den darin enthaltenen Direktiven erhöht

Wie die Crawler verbessert wurden

Mehr Crawler (nun 30!)
Saubere Daten ohne minderwertige oder doppelte Links
Besser darin, die relevantesten Inhalte zu finden
Crawl-Geschwindigkeit von 25 Milliarden Seiten pro Tag

Im Speicher befinden sich alle Links, die du als Semrush-Nutzer sehen kannst. Der Speicher zeigt die Links zu dir im Tool und bietet Filter, die du anwenden kannst, um das Gesuchte zu finden.

Das Hauptproblem unseres alten Speichersystems war, dass es beim Update vollständig neu geschrieben werden musste. Es wurde also alle 2-3 Wochen neu geschrieben und der Prozess begann von vorne.

So haben sich während des Updates neue Links im Zwischenspeicher angesammelt und wurden erst verzögert für die Nutzer sichtbar. Wir wollten sehen, ob wir die Geschwindigkeit bei diesem Schritt verbessern konnten.

Was haben wir getan?

Wir haben die Architektur von Grund auf neu geschrieben. Um den Bedarf nach temporärer Speicherung zu eliminieren, haben wir die Anzahl unserer Server um mehr als das Vierfache erhöht. 400 %.

Dies nahm über 30.000 Stunden Entwicklerarbeit in Anspruch, um die neuesten Technologien zu implementieren. Nun haben wir ein skalierbares System, das weder jetzt noch in Zukunft an Grenzen stößt.

Wie der Speicher verbessert wurde

500+ Server insgesamt
287 TB RAM-Speicher
16.128 Kerne
30 PB Gesamtspeicherplatz
Blitzschnelle Filterung und Berichterstellung
DIREKTES UPDATE - kein temporärer Speicher mehr

In einer zweiteiligen Studie haben wir die Geschwindigkeit unseres Backlink-Analytics mit Moz, Ahrefs und Majestic verglichen.

Wenn du genau erfahren willst, wie viel schneller unser Tool im Vergleich zu den anderen SEO-Tools auf dem Markt ist, kannst du diesen Blogartikel lesen.

Wir sind so stolz auf unsere neue Backlink-Analytics-Datenbank, dass wir allen die Chance geben wollen, selbst zu erleben, was sie zu bieten hat.

Erhalte KOSTENLOS Zugang, indem du dich einfach für ein kostenloses Semrush-Konto anmeldest, und der ganze Bereich Backlink-Analytics steht dir zur Verfügung.

Probiere es aus und lass uns deine Meinung wissen!

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行