(封面为LAPLACE花园(laplace.live)主界面)
本文收集了我所知的一些基于B站平台的工具性网站,主要是关于用户、主播的数据汇总及分析方面的。和“新站”等较为正式的专业网站不同,本文中出现的网站大部分为用户自制,主要有两个方面的功能:一是直播相关数据的查询,包括直播营收、弹幕列表等,主要针对主播;第二是针对普通用户的,包括直播入场、发言记录查询,以及查评论等。后者有时会被称为“查成分”。虽然事实上这些网站收集的都是公开数据,但往往是通过爬虫、访问特定API(“内部接口”)等可能略显“灰色”的手段实现的,因此也时常会遇到服务不稳定的问题(主要是技术性问题),甚至可能会收到B站的律师函(被叔叔的铁拳砸了),从而永久停止服务。(注:关于网站最新服务情况,请参考评论区的更新;或者如果您有最新的消息,也欢迎向我指出,谢谢!)
当然,此类网站有很多,笔者时间和经历都有限,无法做到全知全能,因此肯定会有所遗漏。若您知道任何其他的类似网站值得推荐,欢迎补充。在网站的介绍中,关于工作原理的解释,除了来自网站作者之外,还有一些补充内容是我自己测试或推测出来的,因此可能存在不准确之处。若您知道更准确或更严谨的表述,请向我指出,谢谢!
(在正文之前,还得说明一下我对于“查成分”这一行为的态度。一般来说,在正常的、不太激烈的对话中,很少会产生查成分的必要,毕竟查成分也需要花费相应的时间和精力,还未必有结果。只有在“非正常情况”下,比如出现了激烈的争论,或者一些不同寻常的(逆天)发言时,查成分才成为必要。而直接通过B站主页查动态、关注、点赞或收藏记录的行为都是被默认合理的,因为这些都是用户自愿公开的信息,如果不想自己的主页被人翻查,也可以选择隐藏。但评论和弹幕则不然,B站自带的功能并没有将其与用户双向关联的功能。用户在评论后其他人可以借此进入其主页,但反过来不行,不能从其主页获取其发表的其他评论,除非该用户自己转发了自己的评论。而弹幕几乎是匿名的(前台匿名,后台实名),若要获取用户在某次直播中发送的弹幕,要么在直播间实时盯着弹幕列表,要么在直播结束后从B站官方提供的直播回放(不一定有)弹幕列表中逐个寻找,无论哪一种都需要花费巨量精力。这是直播的弹幕,普通视频的弹幕则更加无法搜寻。因此相较于实名评论来说,发弹幕的顾虑更少,也更为自由。
查成分网站的出现打破了这一局面。以查弹幕的相关网站为例,此类网站汇总了用户所有的直播间入场观看记录和弹幕记录,从而极大地降低了查弹幕的时间成本。然而,查成分的便捷化给网络空间的言论自由带来的却往往不是正面的作用。如前文所说,弹幕的发言显得较为自由是建立在弹幕难以被追查的基础上的,查弹幕网站带来的改变破坏了这一前提,也使有意发弹幕者(实际上是所有人)不得不在发言前考虑发言可能带来的后果,比如被查成分甚至贴标签等等。这一潜在成本的提高必然会对相当一部分人造成阻吓作用,使更多的人选择沉默。因此,无论是从个体角度出发的言论自由,还是从平台角度出发的舆论环境(注:然而也有一些平台从一开始就不打算让所有人都能说话(至少是让大多数人能说话),比如微信自2018年2月之后新创立的公众号就没有评论留言功能,这种平台对舆论环境的构想是一个中心化的、自上而下单向的信息传达工具,而不是一个公开讨论的场所,因此不在此处讨论范围之内),查成分都可能会造成潜在危害,必须谨慎使用。
就个人而言,我倾向于“不首先使用查成分”,仅将查成分作为一种自卫或保卫他人的防御手段,而不是进攻手段。当然个人的偏好并不能构成普遍的原则,但如何更好地利用查成分等技术促进而不是抑制公共讨论,则是所有参与构成舆论的人都应该思考的。)
主播/UP主向:
1. 06数据观测站 (zeroroku.com)
作者:Jannchie见齐(B站:https://space.bilibili.com/1850091)
主要功能:粉丝数及变动、直播营收等数据统计
使用方法非常简单,输入UP主的用户名就可以进行查询。查询界面如下,可以查到UP主的粉丝数和直播营收。
图1.1 06观测站(ZeroRoku)的主界面,在搜索框中输入UP主用户名即可搜索。截于7.23,下同。
图1.2 搜索示例:UP主“嘉然今天吃什么”的页面。左上角可见链接格式:zeroroku.com/bilibili/author加UID
图1.3 同上,“嘉然今天吃什么”的页面,可见营收和粉丝数的柱形图。注意其中有信息缺失时段。另外,此处显示7.19营收为85798元,少于下文其他网站(见图6.3)的数据。
已知问题:需要注意的是,粉丝数基本上在2022年之后才有较为齐全的数据(下文介绍的其他网站也有类似现象),往往也并不是每天都会进行抓取,尤其是对于粉丝数不太多且变动不大的中小UP主来说,往往一个月只有几天的数据(目前仍然如此)。至于占大多数的、粉丝较少的“底边”UP主,则并没有被收录进去,需要向站方手动添加。相反,直播营收数据却相对齐全。另外,06观测站统计的直播营收是当天24小时内的营收,而不仅限于直播时段,这与下文的其他网站不同。
更新:应该是在今年5月底至6月之间,网站进行了一次比较大的改版,新的查询界面移除了粉丝数和直播营收的历史折线/柱状图,只显示最近几次抓取的结果。根据网站管理者的说法,新界面的UP主历史数据仍在制作中,日后将会推出。(7月20日更新:已恢复。)
(另外,网站作者见齐老师在GitHub上面也有一套很好的数据可视化模板(https://github.com/Jannchie/anichart.js),我个人非常喜欢的一位做数据可视化的UP主Azusa-Hau就有很多作品用了他的模板。)
2. 直播字幕库 (zimu.bili.studio)
作者:恬豆_千鸟official(B站:https://space.bilibili.com/95111328)
主要功能:(未删减的)直播回放、原装弹幕及识别的字幕,其中字幕可以搜索及定位;同时有切片功能
图2.1 主界面。其中标“本地源”的录播视频来自于网站自身的资源,一般无删减。
图2.2 上图中7.19直播的回放及字幕库界面。可见原版直播弹幕。
图2.3 切片工具
从收录的主播列表可以看到,主要是虚拟主播相关。因为视频是直接通过B站获取,在保留了原版弹幕的同时,也提供了完全没有删减的直播回放备份(部分历史数据仍在整理中)。这极大地方便了查证考据工作。相比之下,无论是主播自己还是录播组的录播,都有可能存在删减的行为。举个例子,虚拟主播团体A-SOUL两年多的录播中,无论是“账号已注销499455”(原名“贾布加布”)还是现任“A-SOUL二创计画”的录播,都不时会有一些片段(出于舆论影响考量?)被删去。字幕库的录播为此提供了一个安全的备份。
不过更重要的是字幕库的字幕查询功能。网站的字幕库是自动识别直播内容生成,想要查找某位主播哪一天在直播中说过什么话,只需要在搜索栏输入关键词查询即可,如图。查找的结果可以精确到秒,并有相应的直播回放以供定位。同时,字幕库亦有“模糊搜索”功能,可以一并显示同音字的结果,以最大限度避免语音自动识别中产生的错误。
图2.4 关键词查询示例
图2.5 上图对应直播片段出处
除此以外,网站还有录播切片的功能。目前,网站已经收录了A-SOUL、VR、EOE、四禧丸子、明前奶绿、绊爱等主播/团体的直播,并仍在不断扩充中。
3. 奶绿live (stats.nailv.live)
作者匿名
主要功能:直播数据查询,包括营收、观众人数、弹幕数量等。
图3.1 主界面
具体来说,可分为两种:
(1)累计数据。在索引-主播主页-总览中,可以看到任意时间段内相应直播数据的总和以及变动曲线,包括营收、弹幕数、(活跃)观众数等等,以及粉丝和舰团(大航海)人数的变化。这里“观众数”指的是所有观看(入场)的人数,而“活跃观众”指弹幕发言或付费的用户。
图3.2 查询示例,主播“明前奶绿”的主页
图3.3 上图下方的近几次直播数据概况,使用的是弹幕库的数据(见图5.4)
图3.4 上图3.2右上方“总览”进入后的页面
图3.5 总览页面截图之二:营收及弹幕曲线,其中绿线为总弹幕,红线为时均弹幕
(2)单场直播的详细数据,即直播过程中,不同时间区间内(比如,每5分钟/10分钟,等等)弹幕、活跃用户和营收数据(分为舰团、SC和礼物三种)的变化曲线,但并未如下文弹幕库一样收录弹幕和SC的详细内容。
图3.6 单场直播数据,此处选取最近一场直播,即7.22
图3.7 单场直播数据截图之二。活跃用户指参与互动(发弹幕)或付费的用户
图3.8 单场直播数据截图之三:营收,包括总数(绿)、舰团(蓝)、礼物(橙)、SC(紫)
除此之外,对好胜心较强(喜欢“踩头”)的朋友来说,网站还可以用来进行“斗虫”,即比较不同主播特定时间段内,或者同一主播在不同时期的各项直播数据。
已知问题:网站的直播弹幕、营收等数据来自弹幕库,粉丝和舰团数则来自06观测站(注:奶绿live的作者疑似将域名打错了,笔者推测应该指的是06观测站),因此这两个网站存在的问题也会体现在奶绿live上面。关于收录的主播,奶绿live和弹幕库大致相同,数据比手动收录的06观测站更全。但06未收录主播的粉丝和舰团数据,奶绿live自然也没有。
图3.9 网站的简介
4. Matsuri ICU (matsuri.icu)
作者:brainbush(GitHub/TG同名)
主要功能:直播弹幕列表及关键词统计
图4.1 主界面
图4.2 查询示例,仍然是明前奶绿的直播数据,注意左上角域名:matsuri.icu/channel/加UID。可以看到,弹幕数量与弹幕库数据(图5.4)以及使用其数据的图3.3、6.2等有一些细微差别。
图4.3 仍然是明前奶绿7.22直播的数据,可以看到有弹幕关键词频率统计
图4.4 上图下方的弹幕列表,支持关键词搜索
与前述网站不同,在Matsuri ICU可以查询每场直播具体的弹幕列表。原理大致是,网站通过API获取直播弹幕列表,并将其返回的用户UID与其用户名匹配。除此之外,网站还统计了弹幕热门关键词在直播不同时段的出现频率,并以折线图的方式呈现。收录的主播主要是虚拟区,但也可手动添加。
不过使用API爬弹幕列表也相应存在一些问题,比如流量过大时会发生遗漏,这在下文弹幕库的部分有更详细的说明。
图4.5 网站的简介
用户向:
5. 弹幕库DANMAKUS (danmakus.com)
作者匿名
主要功能:直播间数据及弹幕列表查询、用户观看直播(入场记录)及所发弹幕记录查询
弹幕库是一个功能相当齐全的网站。顾名思义,可以用来查弹幕,但并不仅仅如此。事实上,这一网站的功能既有主播视角的,也有用户视角的,只不过因为查用户入场和弹幕的功能更常用,才被放到了“用户向”这里。但主播向的功能也值得特别介绍。
图5.1 主界面
图5.2 直播间搜索栏
图5.3 主播的页面示例,左上角链接格式为danmakus.com/channel/加UID。仍然用了明前奶绿的例子
图5.4 上图下方的直播数据概况,可与Matsuri的数据(图4.2)对比
图5.5 (仍然是)上图中明前奶绿7.22直播的弹幕列表,可与图4.4对比
一般较常使用的是“直播间”和“查询”两个功能。在“直播间”一栏中,可以查询网站收录主播的直播数据,包括开播记录、营收、直播间弹幕记录等等。(营收是通过统计弹幕列表中的付费记录得出的,本质上还是弹幕的一部分。)按照网站作者的说法,弹幕库收集的主播为手动收入,如果有未收录的主播,需要手动添加。但经笔者测试,笔者所了解的所有开播过的用户,无论体量大小,弹幕库均有收录。
虽然同样是使用直播监测的相关接口,但与上文提到仅统计总和数据的06观测站和奶绿live不同,通过弹幕库可以查询每场直播的完整弹幕列表,其中包含了用户ID(昵称)及其所发弹幕、付费等记录,还设有关键词搜索,功能相当完备(原理:接口在返回弹幕数据时会附带发送者的UID,将其与对应用户名匹配即可)。同时,和Matsuri ICU一样,也可以查到每次直播过程中弹幕、互动、收益等等的折线图。
图5.5 用户弹幕记录查询及数据分析的搜索栏,同时可见查公会的入口
图5.6 一个普通用户(我本人)的弹幕记录截图。左上角地址:danmakus.com/user/加UID。
更为熟知的是“查询”功能,也就是查用户弹幕的功能。该功能可以查询任何用户自2020年至今的直播入场、弹幕、付费等记录。这也就是一般语境下的“查成分”。值得一提的是,已注销用户(如果知道其UID的话)也是可以查询的。同时,因为上面提到的弹幕与用户名匹配的机制是即时的,也可以查询到每个用户在不同时间进入不同直播间时的用户名,也就是其曾用名(历史ID)。
除此之外,甚至还可以追踪用户的登录(“上号”)记录。其中的原理有两种。用户在每天初次登录时,会获得一个硬币,若弹幕库所记录的硬币数发生变化,则代表该用户在这一天上过号。不过该途径只适用于不投币(或投很多币)的用户,如果用户每天恰好投一个币,这种方法就不适用了。不过,给视频投币本身会提升用户的经验值,因此也可以通过对比用户前后的经验值变化来判断用户有无登录。但这种方法不适用于已满六级、经验值达到28800的用户。这两种途径时常需要配合使用,而且需要长时间持续追踪用户的情况。当然,对于持续有创作内容产出的用户(UP主)来说,这两种方法均不适用,因为投稿可以随时获得硬币,而这会同时转化为自己的硬币和经验。
已知问题:
有几点需要注意:
第一,和前述网站一样,弹幕库也存在早期的数据不完整的情况,这主要体现在一些直播间数据记录存在空缺时段(可能是监测API掉线所致)。因此若想通过弹幕库的数据统计主播的营收等信息,需要注意此问题。
第二,用户的直播入场记录也时有缺漏,这更多是由于B站自己的弹幕机制。我们知道,进入直播间时,入场记录会呈现于弹幕列表的最下方,也可以看到其他用户的入场记录。但与普通弹幕不同,入场记录每秒只能显示两条(笔者记忆中如此,可能不准确),而且会有优先级,粉丝牌等级高的用户会优先显示。因此,对于人流量很大的直播间来说,有相当一部分入场记录会被遗漏。至于普通弹幕,受此影响似乎较小,但或许也并不能忽视。(注:笔者怀疑,直播间的“等级墙”,即对粉丝牌特定等级以下的用户进行禁言,对此也有影响。但目前我所知的开等级墙的直播间流量都较大,无法准确判断到底是哪个原因引起的。)
第三,关于曾用名。因为该功能是通过收集汇总用户的直播入场及弹幕记录实现的,因此,如果用户在使用某个用户名期间没有进入任何直播间(包括其自己的直播间),或者所有入场记录均未被记录,则该曾用名也不会被包括在内。和第二点一样,这属于机制问题,现在仍然如此。
更新:查公会。大约在5-6月时,弹幕库更新了查询主播/UP主所属直播公会的功能,在“直播间”和“查询”两个界面均可以看到,也会在主播自己的界面显示。公会的数据来自GitHub用户tiebarandomuser的vtuberguildqueue数据库。
(注:Matsuri ICU和弹幕库使用的是不同的API,因此统计的弹幕数(以及由此衍生的总营收、观看人数和活跃用户数量)均可能产生差异。对于流量很大的直播间(每分钟弹幕100条以上),两者的数据会存在差异,虽然一般处于可忽略的范围(5%)内。对其他流量不太大的直播间而言,两者的数据一般是一致的。以上是我的观察总结,不一定准确,仅供参考。)
6. LAPLACE花园 (laplace.live)
作者匿名
顾名思义,是明前奶绿的粉丝制作的网站,主要功能和使用方法都与弹幕库类似。事实上网站的数据正是获取自弹幕库,是一样的数据。弹幕库有的功能和问题,LAPLACE花园基本也都有。
图6.1 直播间数据查询界面,默认为明前奶绿。地址laplace.live/stats/加UID。
图6.2 明前奶绿的近几次直播数据概况,使用了弹幕库的数据(见图5.4)
图6.3 主播“嘉然今天吃什么”的直播数据。其中7.19直播营收为134188元,比06观测站的数据(图1.3)多出不少。
图6.3 “用户视角”,某位已注销用户。注意不能从搜索栏进入,只能直接从链接地址进入,地址为laplace.live/user/加UID。(小恐龙你在干什么啊小恐龙)
可查询的统计数据分为“主播视角”和“用户视角”两个方向,分别对应弹幕库的“直播间”查询和(用户数据)“查询”功能。其中,用户视角的查询需要在链接地址中输入目标用户UID(即laplace.live/user后加用户UID)。
7. (11.12更新:应网站作者出于安全问题的考虑,本段删除)
(11.12更新内容)