分享好友 最新动态首页 最新动态分类 切换频道
Semrush Backlink-Update 2021: Wie wir ein brandneues Backlink-Tool entwickelt haben
2024-12-25 17:51

Vor etwa anderthalb Jahren haben wir uns ein Ziel gesetzt.

Semrush Backl<i></i>ink-Update 2021: Wie wir ein brandneues Backl<i></i>ink-Tool entwickelt haben

So war es unser Ziel, die größte, am schnellsten aktualisierte und qualitativ hochwertigste Backlink-Datenbank für unsere Kunden aufzubauen und besser zu sein als die führenden bekannten Wettbewerber auf dem Markt.

Nachdem wir unser Ziel erreicht haben, können wir es kaum erwarten, dass du es selbst ausprobierst! 

Alles, was es brauchte, war eine Kombination von ungefähr 16.722 Tassen Kaffee mit mehr als 500 Servern und 30.000 Arbeitsstunden unseres Teams von Ingenieuren und Datenwissenschaftlern. 

Ganz einfach, oder?

Sehen wir uns zuerst an, was neu ist, und kommen dann dazu, wie wir das geschafft haben und welche Probleme wir lösen mussten.

Mit erhöhtem Speicherplatz und dreimal mehr Crawlern hat unsere Backlinks-Datenbank nun die Kapazität, noch mehr zu finden, zu indizieren und zu wachsen. Im Durchschnitt crawlen wir jetzt: 

Zuerst generieren wir eine Warteschlange mit URLs, die entscheidet, welche Seiten gecrawlt werden. 

Dann schwärmen unsere Crawler aus und untersuchen diese Seiten. Wenn sie Hyperlinks identifizieren, die von diesen Seiten auf andere Orte im Internet verweisen, speichern sie diese Informationen.

Als Nächstes gelangten diese Daten früher in einen temporären Speicher, der sie für einen bestimmten Zeitraum aufbewahrte, bevor sie in den öffentlich zugänglichen Speicher verschoben wurden, den jeder Semrush-Nutzer im Tool sehen kann.

Mit dem neuen Build haben wir den Zwischenschritt mit dem temporären Speicher praktisch eliminiert, das Dreifache an Crawlern eingesetzt und vor der Warteschlange eine Reihe von Filtern eingeschaltet, sodass der gesamte Prozess viel schneller und effizienter ist. 

Manche müssen häufiger gecrawlt werden, andere überhaupt nicht. Daher verwenden wir eine Warteschlange, die entscheidet, in welcher Reihenfolge URLs zum Crawlen übermittelt werden.

Ein häufiges Problem besteht bei diesem Schritt darin, dass zu viele ähnliche, irrelevante URLs gecrawlt werden, was dazu führen kann, dass Nutzer mehr Spam und weniger individuelle verweisende Domains sehen. 

Zur Optimierung der Warteschlange haben wir Filter hinzugefügt, die einzigartige Inhalte sowie Websites mit höherer Autorität priorisieren und vor Linkfarmen schützen. Dadurch findet das System jetzt mehr eindeutigen Content und generiert weniger Berichte mit doppelten Links. 

Einige Eckpunkte der neuen Funktionsweise:

  • Um unsere Warteschlange vor Linkfarmen zu schützen, prüfen wir, ob eine große Anzahl von Domains zur selben IP-Adresse gehört. Wenn wir zu viele Domains von derselben IP-Adresse erfassen, wird ihre Priorität in der Warteschlange verringert. Dadurch können wir mehr Domains von verschiedenen IP-Adressen crawlen, ohne an einer Linkfarm hängen zu bleiben.
  • Um Websites zu schützen und ein Überfrachten unserer Berichte mit ähnlichen Links zu vermeiden, prüfen wir, ob zu viele URLs von derselben Domain erfasst wurden. Wenn wir zu viele URLs von derselben Domain sehen, werden sie nicht alle am selben Tag gecrawlt.
  • Um sicherzustellen, dass wir neue Seiten so schnell wie möglich erfassen, haben alle URLs eine höhere Priorität, die wir zuvor noch nicht gecrawlt haben.
  • Jede Seite verfügt über einen eigenen Hash-Code, der uns hilft, das Crawlen eindeutiger Inhalte zu priorisieren.
  • Wir berücksichtigen, wie oft auf der Quellseite neue Links generiert werden.
  • Wir berücksichtigen den Authority Score einer Webseite und Domain.

Wie die Warteschlange verbessert wurde 

  • Mehr als 10 verschiedene Faktoren, um unnötige Links herauszufiltern.
  • Mehr einzigartige und qualitativ hochwertige Seiten dank der neuen Algorithmen zur Qualitätskontrolle.

Unsere Crawler folgen internen und externen Links im Internet, um neue Seiten mit Links zu finden. Daher können wir eine Seite nur finden, wenn ein Link auf sie verweist.

Bei der Überprüfung unseres vorherigen Systems haben wir eine Chance gesehen, die Gesamt-Crawling-Kapazität zu erhöhen und bessere Inhalte zu finden - die Inhalte, die Website-Betreiber in unserer Datenbank vorfinden möchten.

Was haben wir getan?

  • Die Anzahl unserer Crawler verdreifacht (von 10 auf 30)
  • Das Crawlen von Seiten mit URL-Parametern beendet, die keinen Einfluss auf den Seiteninhalt haben (& sessionid, UTM usw.)
  • Die Häufigkeit des Auslesens von robots.txt-Dateien auf Websites und Befolgen von den darin enthaltenen Direktiven erhöht

Wie die Crawler verbessert wurden

  • Mehr Crawler (nun 30!)
  • Saubere Daten ohne minderwertige oder doppelte Links
  • Besser darin, die relevantesten Inhalte zu finden
  • Crawl-Geschwindigkeit von 25 Milliarden Seiten pro Tag

Im Speicher befinden sich alle Links, die du als Semrush-Nutzer sehen kannst. Der Speicher zeigt die Links zu dir im Tool und bietet Filter, die du anwenden kannst, um das Gesuchte zu finden.

Das Hauptproblem unseres alten Speichersystems war, dass es beim Update vollständig neu geschrieben werden musste. Es wurde also alle 2-3 Wochen neu geschrieben und der Prozess begann von vorne. 

So haben sich während des Updates neue Links im Zwischenspeicher angesammelt und wurden erst verzögert für die Nutzer sichtbar. Wir wollten sehen, ob wir die Geschwindigkeit bei diesem Schritt verbessern konnten.

Was haben wir getan?

Wir haben die Architektur von Grund auf neu geschrieben. Um den Bedarf nach temporärer Speicherung zu eliminieren, haben wir die Anzahl unserer Server um mehr als das Vierfache erhöht. 400 %.

Dies nahm über 30.000 Stunden Entwicklerarbeit in Anspruch, um die neuesten Technologien zu implementieren. Nun haben wir ein skalierbares System, das weder jetzt noch in Zukunft an Grenzen stößt.

Wie der Speicher verbessert wurde

  • 500+ Server insgesamt 
  • 287 TB RAM-Speicher
  • 16.128 Kerne
  • 30 PB Gesamtspeicherplatz 
  • Blitzschnelle Filterung und Berichterstellung
  • DIREKTES UPDATE - kein temporärer Speicher mehr

In einer zweiteiligen Studie haben wir die Geschwindigkeit unseres Backlink-Analytics mit Moz, Ahrefs und Majestic verglichen.

Wenn du genau erfahren willst, wie viel schneller unser Tool im Vergleich zu den anderen SEO-Tools auf dem Markt ist, kannst du diesen Blogartikel lesen. 

Wir sind so stolz auf unsere neue Backlink-Analytics-Datenbank, dass wir allen die Chance geben wollen, selbst zu erleben, was sie zu bieten hat. 

Erhalte KOSTENLOS Zugang, indem du dich einfach für ein kostenloses Semrush-Konto anmeldest, und der ganze Bereich Backlink-Analytics steht dir zur Verfügung.

Probiere es aus und lass uns deine Meinung wissen!

最新文章
码住!怎样用好神马搜索推广的关键词推荐功能
神马搜索广告推广的关键词推荐工具,可根据您的需求,帮您搜寻、选择关键词,从而更好地定位潜在客户。下面就跟随我们一起详细的学习一下吧!神马搜索广告推广关键词推荐工具功能区分为三部分:1、搜索筛选区。2、关键词推荐列表。3、已选
软件开发常见模型汇总
已剪辑自: https://zhuanlan.zhihu.com/p/539859298 1.什么是软件开发模型 ? 所谓的软件开发模型,其实就是开发软件所经历的各个阶段 ,一般都会包括:需求-设计-编码-测试-运行维护 。当然,不同的开发模
让消费者爱上你的品牌:白牌品牌如何赢得信任和市场?
来源:浪_潮新消费本质:白牌通常是处于初创阶段的新品牌。每个品牌在发展之初,都是从零开始的。白牌品牌没有现成的用户基础,也没有市场口碑的支撑,所有的市场推广和用户教育都得从头做起。成长路径:白牌品牌的成长,需要依托精准的市
豆包AI耳机成最大助攻?存储芯片多股走强 NOR Flash再迎增量驱动力 事件:2024年12月19日,火山引擎冬季FORCE原动力大会的开发者论坛将重磅开启,聚焦火山引擎在大模型开发、应用与落..
来源:雪球App,作者: 明天见2018,(https://xueqiu.com/9560980411/316836057)事件:2024年12月19日,火山引擎冬季FORCE原动力大会的开发者论坛将重磅开启,聚焦火山引擎在大模型开发、应用与落地方面的实践;包含从火山方舟平台背后的
餐饮客户管理系统怎么选购,有哪些购买技巧【惠管家收银系统人工电话:400-836-9597】
富掌柜西安运营中心电话:400-836-9597   随着互联网时代的到来,餐饮行业发生了翻天覆地的变化,消费人群、消费场景和消费方式都发生了很大的变化。在此背景下,餐饮客户管理系统应运而生。传统的餐饮行业在管理上存在着许多的问题,比
祛痘品牌排行榜前十名公布,十大高性价比祛痘品牌盘点
祛痘品牌排行榜前十名公布,咱打工人天天忙得跟啥似的,跟个陀螺似的转,连洗脸的时间都没有,更别说对付那些烦人的黑头、粉刺和痘痘了。到底啥产品效果好呢?一、初源漾净痘啫喱二、瑷尔博士精华三、博乐达水杨酸四、肤漾果酸五、益肤祛痘
用AI生成超逼真美女写真,揭秘超火的AI绘图神器!
步骤四:耐心等待,系统将自动为你创作出一幅图片,生成后你会看到预览图。步骤五:如果你满意,点击下载保存到手机,如需重新生成,可以进行描述的修改。通过这几个简单的步骤,你就能在几分钟内拥有一幅超美的美女写真!同时,我也想分享
熊出没之秋日团团转:熊大熊二被小光骗了!光头强得知真相去帮忙
{{if !data.isVip && data.isActText}}{{else if !data.isVip && !data.isActText}}{{else}}{{if !data.isNormalVip}}{{if data.expiredVip && data.isActText}}{{else if data.expiredVip && !data.isActText}}{{else}}{{/if}}{{else if d
抖音小店母婴用品怎样开通抖音小店开通流程是什么
标题:母婴用品开通抖音小店,轻松实现电商创业随着抖音的普及,越来越多的商家开始将目光投向抖音小店,希望通过这个平台实现电商创业。对于母婴用品商家来说,开通抖音小店不仅可以扩大销售渠道,还能提高品牌知.名度。那么,母婴用品如
python随机顺序
在开发过程中,我们经常会遇到需要对一组数据进行随机排序的需求。在Python中,我们可以通过使用random库中的函数来实现这一功能。本文将介绍如何使用Python实现随机顺序,并逐步引导新手开发者进行操作。首先,我们可以将整个随机顺序实现
相关文章
推荐文章
发表评论
0评