分享好友 最新动态首页 最新动态分类 切换频道
中文互联网正在加速搬运
2024-12-26 12:42

作者|James

中文互联网正在加速搬运

本周有一篇文章提到,现在你很难使用百度这样的搜索引擎,搜到历史上有关“马云”的网页。比如说在百度上指定1998-2005年的时间段搜索“马云”这个关键词,只有一个结果,而点开后发现也不是这个时间段内的。类似的,马云、雷军、任正非甚至周杰伦和李宇春也都一样。

对于结论,他悲观的感慨是中文互联网的源头性问题,这不禁让人联想到这个AI时代,ChatGPT的中文语料数据占比仅为0.09905%,加上目前国内的AI工具确实落后于美国,于是本文小小的刷屏了一把。

这篇文章讲的东西或许太商业,太直男,那么谈到近些年豆瓣消失的瓜组、鹅组,A站NGA论坛消失的各种爆料贴,知乎上各种极具思辨价值的老帖,大家是不是忽然心有戚戚焉?

事实真的如此吗?

如果有一部分事实真的如此,那这种“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?

“崩塌”,不只是中文互联网

作为一个不以观点先行的媒体,视智未来的编辑部第一步想想法是验证他的结论是否成立。

结果嘛,好像还是能搜出一些内容的,甚至不需要用谷歌,只用百度就行。因为我们使用了一个搜索引擎的常见语法。打 site: 加上网址,可以限定搜索结果仅限于某个网站。

同样,我们还能找到历史悠久的官方媒体上的一些老内容,权威媒体的上网时间也更早。比如说,当时央视诸位名嘴还很年轻,很真诚,认真给网友写日记,编读往来还会放在网上。这简直就是80年代春节联欢晚会期间,北京观众可以打电话点歌的赛博版本。

所以,如果限定结果来自这些网站,那么它们仍然保留在服务器上的存档内容,就有可能因为你的搜索而重见天日。

看来,那些“美好的旧时光”在互联网上并不是全都消失了。

但确实,要找到马云那几年的新闻,是需要一些运气和技术。

另外,“加速崩塌”是否只是如文中所说,是“中文互联网”特有的现象?

简单的答案是:哪有,全世界都这个熊样。

就在这篇爆款文章发出来的前两天,美国的皮尤研究中心做了一项调查,显示2013-2023年间存在的网页中,有1/4已无法访问。

这个消息在中国得到的反应就不说了,我们来看看日本网友的反应。

首先,他们祭奠的是雅虎的个人主页服务地球村(GeoCities)。

日本家庭用PC和互联网的时间大概跟美国同步,这使得在世纪之交时的一些最初的网络服务,日本人也在积极使用。因此,日语成为了互联网最早被广泛支持的东亚语言。一些西方开发的常用软件,会在多语言版本选择中列举一堆欧洲语言,然后孤零零地提供一个日语。

接下来就是一些常见的博客托管服务。其实,“博客”(Blog)这个词已经有年头了,现在的人根本不了解。由于服务是本土化的,不同地方都有自己的博客网站,例如在台湾是无名小站,国内最著名的是新浪博客——韩寒、徐静蕾等人曾把那里当作主阵地。

现在我们还在用的微博,全称是“微博客”,也就是字数较少的博客。另一方面,有些人听小宇宙。“播客”(Podcast)这个词,在被译介入国内时,也是借助了博客的概念。如果现在想要向一个新人解释什么是播客,恐怕得说:播客是一种声音公众号。

是的,时代变迁就是这么无情,就好像我们会说Word那个保存的图标3D打印出来,就是“3.5寸软盘”。

说道这里,欢迎关注我们的播客节目,近期恰好遇到了一个综艺营销公司的负责人,刚刚更新了一期关于《歌手2024》的节目。

不“崩塌”,在技术上无法实现

在美国,零几年的时候正经历一个叫Web 2.0的奇怪时代。意思是,网络1.0是少数编辑、记者或作家提供有限的内容,2.0时代是每个人都可以自己写内容、自己发布,让其他人看到和分享。奇怪的时代出现了很多奇怪的网站。

比如说,既然所有人都在写自己的专栏,谁的内容能脱颖而出呢?就需要有勤劳的推荐小能手不断挖掘相关信息,这就造就了一个叫“挖掘”(Digg)的网站。Digg和StumbleUpon这两个推荐引擎负责将世界各地有趣的文章,以投票方式决定谁显示在最上层。

在国内也有或大或小的网站,选用同样的推荐机制,其中坚持时间最长的一个叫做“抽屉”。抽屉新热榜是一个非常长寿的网站,一直坚持到这几天(!)才发出关站的消息。

早在此之前,它的海外祖师爷都已在很早的时候被贱卖掉,其中的数据也没有了。如果有人能够按月备份每一阶段在网站上被顶到最前面的信息,那将是非常有趣的事情。

国内这方面,最被众人皆知的是互联网档案馆(Internet Archive),这是一个历史地位几乎与维基百科同等重要的非营利组织。它存在的唯一目的是备份那些因自然或人为灾害而可能丢失的内容。

虽然在国内访问有点困难,但它同样可以备份大多数国内的网站。只不过,如果要有备份行为,可能需要你在看到这个网页时,随手用一个浏览器插件点一点,通知网站可以抓取这个页面了。

互联网档案馆一直在发起行动,备份那些随时可能会消失、拥有大量珍贵数据的站点。之前比较著名的有:

  • 2018 年,备份和保存来自流行的照片共享平台 Flickr 的图像。Flickr 决定将免费帐户限制在 1,000 张照片,这可能导致数百万张图像被删除。
  • 2018 年,存档“轻博客”平台 Tumblr 的内容。Tumblr 禁止成人内容的决定,可能导致该平台的大部分内容和创意作品丢失。
  • 2020年以来,存档与新冠疫情大流行相关的全球各地在线内容。

这点努力相对于Web 2.0时代实际损失的其它海量内容简直是杯水车薪,至少还有共享网络收藏夹Delicious,谷歌旗下众多用户依赖的阅读器Google Reader……都一点痕迹也没有了。

即使是那些一直坚持下来的,有着20年以上历史的长寿服务,在运营过程中也会反复更改政策。典型的比如谷歌Blogger服务,清除了一波超过10年没有登录过的账号。但是,很多此类账号的停用,并不意味着作者或读者放弃了这个内容,或许只是已离开人世。

像谷歌、微软、雅虎这些拥有大量陈年老用户的账号系统,处理此类信息时都面临两难境地。它们不可能直截了当地告诉用户,你的东西放在我这里只是临时存储,总有一天要删除掉。但当这些信息的主人也“不再在意”它们时,唯一现实的处置办法就是丢弃,因为任何形式的保管都需要费用。

说个残忍的事实,在国内连实体的墓地也是如此,在公墓落葬或存放的骨灰,需要每隔20年左右,由继承人或亲属缴纳墓穴的管理费。这种行为本身也是供奉的“香火”仍然存在的证明,如果断了,那这个墓穴就会被空出来,留给新的逝者。

前几年,国内的很多门户网站,也丢弃了它们之前长期存放的内容。包括网易博客、微博、QQ空间、人人网等——一大批内容在这个时候被丢弃。其中很多内容,因为存储技术已经过时,所以无法再对外展示。

零几年,网页上经常使用的Flash技术,现状是已经被彻底抛弃,就算变通支持读取,也可能因为无人开发,为你的浏览器带来安全风险,没有任何网站官方支持继续读取Flash内容。然而,QQ空间的某个版本大量运用了Flash技术。

我们需要知道的一点是,互联网内容随时会被丢弃,这并不是所谓“中文互联网”的过错,而是自然规律的一部分。

互联网是一个人为建造的生态系统,但在大多数情况下,人类依靠自然的本能反应来使用它。所以这个人造生态系统的表现,就跟自然界中的热带雨林,那种自循环的生物圈一样。

总有生老病死。死亡的下一步就是腐烂。就像《寻梦环游记》里说人类一样,内容也会死两次,一次是停止更新,另一次是被所有人忘记。

大量自然消失的东西,最终会归于泥土。现在人们想的是,找一些侥幸保存得很好的内容片段,再把它们做成标本。少量东西可以这么做,但妄想所有内容都能维持原来的状态,那是“逆天改命”,违背自然规律。平台方第一个不答应——毕竟是他们在付费。

相信后人的智慧:互联网时代的大搬运

看上去,中文互联网确实在大规模的消退,这甚至是不可逆的一种现象。更可怜的,即使是晚近的内容——哪怕是知乎、豆瓣或小红书上,最近三四年的内容,也可能正在快速地消失。

但我们应该对由00后10后掌管的这一代互联网保持足够的信心。视智未来发现,现在的小孩子们,也自有一套保存、传播和分享这些信息的方法:

最典型的是搬运。搬运是一种口耳相传,当然会有信息失真,但因为有截图,这种失真现在其实较少。

很多引起共鸣的个人经历和故事,以这种方式得到传承。比如AcFun的管理权一直很混乱,被接手后一些原内容不慎丢失,文字区内容几次搬家,搬到“A岛匿名版”去,也是关了又开。但现在有不少内容先是被微博抢救出来,然后官微挂了,又被搬去知乎。

虎扑的步行街也有一个官方运营的号,它上面也会备份很多帖子。

NGA则是志愿者在B站转贴——是,用B站视频转贴。把长帖子滚动截屏后发出,这样的话你看人家帮你往下滚动,你不用动鼠标,还可以欣赏新挂上去的弹幕。

及时备份这些内容非常有必要,这些地方近两年引发人们议论的帖子,都是跟“性别战争”相关的,这很敏感,所以原帖基本上都不存在了。但它们的尸体碎片、网页快照等,被搬运工传递了下来。

还有一些是跨越私密墙或付费墙。财新的文章就不用说了,特别是在涉及到公众利益的报道出来之后,很多地方都有人转。

更经典的是豆瓣有几个小组只存在于传说中,比如瓜组、鹅组、尸组。但在微信公众号等地方,有不止一个账号会专门总结和转载热门“瓜”。这些内容大多“看起来”比较保真,确实也有可能作假,但是……如果传的本来就是流言,为什么需要“原版的”流言呢?

更有名的则是小红书的截图,它正以一种奇怪的方式流传出去:你在知乎或微博等地方,能看到大量来自小红书的截图,但如果按照截图上的文字去搜索原帖,则一般会搜不到。

有些人不断开新账号,在小红书上只发一条帖子,火了之后截图转到营销号上,然后注销账号走人。

小红书目前的流量分配机制是,每个新用户都有平等的前几条帖子,可以获得10万以上阅读量的曝光。这对新用户冷启动非常有效,因为很多时候没人能想到自己也有机会出名,一下子就被平台粘住了。本来就应该这样,“每个人都有15分钟成名的机会”。

然而,小红书的大多数账号在前两三条帖子火爆之后,通常会后继乏力,平台给予的流量会迅速下降。所以实际上,在小红书自然达到1000粉丝是非常困难的,这也是开通广告后台的门槛。

对于搜索引擎来说,小红书是无数个流量黑洞之一。它不仅设置了对任何搜索爬虫静止的状态,而且如果找到证据证明有人使用内容,恐怕还会走法律途径。

现在,大模型方面使用这些网站内容作为语料库,都得支付动辄几千万的费用。搜索引擎作为准公共服务,本应与各个社区达成默契,即他们开放内容让人们可以便捷搜索。但这也只是一种默契,而非法律规定。所以现在,任何地方的搜索引擎,都是不完整的。

一个外国人想要观察中国互联网的流行动态,必须熟练使用几种到十几种流行的中国网络服务。这确实造成了一定的障碍。当他们不在中国,只能离岸观察时,得出的结论往往更离谱,离谱到像ChatGPT最近一次更新使用的分词器,排在前面的都是一些不堪入目的关键词。

但是在这里,视智未来必须说一句反常识的话:这种“围墙花园”的状态,长远来看,说不定反而更有利于信息的长期保存。

那些中小型网站,如果开放搜索和访问,意味着大多数情况下人们会信任它。但它不一定值得信任。像天涯那样曾经名噪一时的网站都有可能最终关闭,而且不给人们信息备份和补偿的机会。

所以,如果所有东西都存在像微信公众号这样的超大平台上,这也意味着它们跟微信这个平台一起坚持到海枯石烂的可能性很高。

如果你2005年选择把一段自拍视频放到优酷上,你现在还能看,但如果放在六间房上,那就不行了。我现在要看《一个馒头引发的血案》——那是多么无与伦比地作品啊!——我只能去B站找。去搜“万恶之源”,很多怀旧的东西都能看。

人们有理由担心微信公众号上的信息搜索不到,有朝一日平台发生变化,上面的东西都会消失。当然是个风险。但是自2005年以来,非中文互联网上90%以上的视频都存在YouTube一个地方,所以他们也应该担心这个问题。说实在的,当这俩地方出故障的时候,你可能更需要担心自己的人身安全等更基本的命题。

与拜托平台长命百岁相比,更有效的信息备份,应该是有一个人类来负责维护。

例如一个资源,最早可能是bt种子,后来放在115网盘上,后来可能迁移到迅雷,再到百度网盘,然后是阿里或夸克。只要负责维护这个资源的人还在世,这份资源就不会“丢失”。如果真的得罪了什么了不起的能量,那也可以去外面的各种个人站或互联网档案室找到,相信我,他们对于这里一切404的东西都有保留的兴趣。

人们总是抱怨,现在不管找什么资源都得掏钱。有些东西以前是可以免费下载的,现在需要花十多块钱买一个不知名地方的会员,其实就是便宜了站长个人。

这其实是理所应当的。之前使用那些服务,完全仰赖他们的良心。但让这件事有利可图,最终会让信息保存更长久。求人办事最好的方法,就是掏钱。

互联网的新陈代谢,只能接受它

如果还有一些并没有被搬运,我们也找不到这些考据的来源网址,对大多数人,会有多大影响吗?其实并没有。

更重要的是,我们有了平替。

哪怕是当时被认为是不可替代的“第四权”,作为社会良心、以身犯险的调查记者,号称现在全国已经下降到了个位数,现在也勉强有了点儿“平替”。比如以一己之力带动淄博烧烤热潮的B太,他出道以来进行的舆论监督,节目放到央视的《经济半小时》和《焦点访谈》播也并不违和。

真正的电视端则显现出青黄不接,之前的几个调查栏目虽然名称还在,但用途已经更换了。总台新开了一个名不见经传的《财经调查》栏目,用来承接之前那些针砭时弊的作用——其实或许能多几个B太也是可以的。

现在,人们交换生活经验,或者为自己争取公道的地方,也变换了场地,他们从电视台、报纸转移到了短视频、公众号,只要人民群众追求美好生活和追求公平正义的心没变,揭露真相这件事,就永远不会停止。

回到本文开头的马云,如果你搜索马云在历史上的痕迹,你可能会发现在不同的营销号中,流传着他做过的一次公开访谈:“他们所说的那些风险一个也没成真,而他们没有预料到的问题却全都出现了。作为专家来说,他们说的全对,做的全错。”

“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?

不是的。它是一种自然规律的体现。

在互联网这个人造的生态系统中,一棵参天大树也有倒下、死亡、归于尘土的时刻。想要把这棵树和上面的每一片叶子做成标本,保存起来,想法很唯美,但可能不是人力能做到的,而且也需要考虑这是否有必要。

那些过去就不再回来的时光,总是提醒我们应该活在当下。而大浪淘沙之后,有些真正重要的事情,也确实会以更永久的方式留存下来,成为人类文明的一部分。

从历史的眼光来看,在中国普及了30年的国际互联网,还处于其生命周期的早期。将时间拉长一点,未来一二百年,可能仍然需要我们在2024年生产的内容的备份。

最新文章
5分钟带你了解:AI联网搜索与RAG如何选择与应用
SmartFlowAI 点击上方蓝字关注我们作者:樊奇,上海交通大学硕士研究生全文约 2000 字,预计阅读时间 5 分钟众所周知,LLM 的训练数据存在时效性和通用性问题。在面对时效性或是专业性较强的提问时,如果只
153期[100%纯真]3d定位精准
153期[九尺钉耙]预测一注今晚3D回顾上期开奖号码:848回顾上期形态:组三形态, 大小形态为大小大,大小比为2:1,奇偶形态为偶偶偶,质合形态为合合合,质合比为:0:3,和值为20点,和尾为0点,跨度为4。独胆看好:0双胆看好:07三胆看好:047杀一
15年坚持免费!这款PC工具箱真的一个顶十个吗?
今天砖哥给大家分享一款老牌的PC工具箱,15年来一直秉持免费原则,功能亲测好用,说它一个顶十个Windows工具也毫不为过。我们的电脑可能会变得越来越慢,出现各种问题,需要一个强大而全面的工具来优化和增强系统性能。对于电脑安全优化软
3D5月周日连号走势图近30期带连线
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
2024新奥正版资料四不像,数据驱动方案_户外版89.249
《2024新奥正版资料四不像,数据驱动方案_户外版89.249》是一本关于2024年北京冬奥会(2022)的官方资料。本书以数据驱动为主导,全面介绍了冬奥会的历史、组织架构、比赛项目及未来发展前景等。书中以大量的图表、列表和数据为主要表现形
AI+视觉检测,虚数科技引领智能制造行业的AI视觉解决方案
在中国,视觉技术的应用开始于90年代,因为行业本身就属于新兴的领域,再加之机器视觉产品技术的普及不够,导致以上各行业的应用几乎空白,国内仍处于启蒙阶段。在2004年后,中国的机器视觉产品逐步进入发展期,机器视觉企业开始探索与研发
ae软件macbook上 macbookpro AE教程
摘要:新片场课堂小编曹洁为您整理ae软件macbook上 macbookpro AE教程的相关内容,欢迎小伙伴点击查看ae软件macbook上 macbookpro AE教程的内容,如果您喜欢可以转发及收藏本网站。ae软件macbook上 macbookpro AE教程1、macbook用ae教程,a
ChatGPT在线:智能助手带来无缝沟通的新体验
对于公司员工来说,ChatGPT不仅能处理日常的事务性工作,还能承担一些高价值的任务。例如,用户可以通过ChatGPT在线迅速获取行业最新动态,获取市场调研报告,甚至可以请求其帮助制定公司战略。这使得企业在面对复杂决策时,不再依赖传统的
4大方法教你快速更新百度快照
【摘要】许多网站每天都在考虑网站SEO优化的效果,并且经常有一个很不好的习惯就是每天去查自己的排名和收录,而往往忽视了一个非常重要的问题,那就是去好好研究百度的收录习惯。 许多网站每天都在考虑网站SEO优化的效果,并且经常有一个
2024JK
1.投标供应商应具备《中华人民共和国政府采购法》第二十二条规定的条件,提供下列材料:1)具有独立承担民事责任的能力:具有独立承担民事责任的能力:是在中华人民共和国境内注册的法人或其他组织或自然人,投标时提交有效的营业执照(或
相关文章
推荐文章
发表评论
0评