分享好友 最新资讯首页 最新资讯分类 切换频道
海量数据——TopK问题
2024-11-07 22:54

TopK问题是一个经典的海量数据处理问题,比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息,再或者通过大数据找出一个地区最爱吃的水果等,都可以使用TopK问题来解决,其核心思想就是最小堆的引入。

海量数据——TopK问题

在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为TopK问题。

下面我们通过一个简单的例子来说明:假如面试官给你100W个数据,请找出其最大的前K个数,而且现在只有1M的空间

在32位操作系统中,默认一个字节为4个字节,则有下列运算

NeedSize = 100W * 4 / 1024 /1024 = 4M

计算结果大约等于4M,很显然1M的空间根本不够。也就是说,即使用最复杂的方法你也无法找到一个合适的空间来存储,因此引入了最小堆数据结构。

下面我只说实现的核心思路,对此有不理解的请查看最大堆和最小堆的相关性质。思路如下

(1)定义两个数组,arr用于存储海量数据,top用于存储最小堆(底层可以借助vector

(2)将海量数据的前K个元素先填满top堆

(3)调整top堆为最小堆结构

(4)通过遍历将新数据与堆顶元素(此时堆顶元素是堆里最小的数据)进行比较,大于堆顶就入堆,并向下调整堆结构

(5)遍历结束,则堆中的元素即n个数中最大的前K个

 
 

问题描述:本公司现在要给公司员工发福利,在员工工作时间会提供大量的水果供员工补充营养。由于水果种类比较多,但是又不知道哪种水果比较受欢迎,然后公司就让每个员工报告了自己最爱吃的K种水果,并且告知已经将所有员工喜欢的水果存储于一个数组中,然后让我们统计出所有水果出现的次数,并且求出大家最喜欢吃的前K种水果。

算法分析:往往笔试过程中,要求在很短的时间内写出一个算法,直接调用标准库里的函数是比较方便的,比如这道题就是对STL中三种容器的考察,具体步骤如下

(1)首先,使用vector来存储所有的水果。

(2)其次,采用map将vector中存在的水果的数量统计出来,map支持下标访问。

(3)最后,通过优先级队列来建立小堆,然后就是TopK问题。

代码实现

最新文章
聚焦 | 为校园公众号“降温”
本刊记者李薇薇随着信息化时代的到来,在微信公众号上发布校园新闻、展示学校动态,成为不少学校的宣传“标配”。然而,从今年上
宝塔搭建GPT+MJ+GPTs程序
目录准备 1.云服务器 2.支持ChatGPT+Midjourney的服务的秘钥 需要准备的软件(能进行ssh连接的都行) Windows版
异构计算+高性能低功耗NPU,高通正在推动终端侧生成式AI发展
9月6日,2024全球AI芯片峰会在北京召开。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业
均安SEO优化攻略,揭秘全方位网站排名提升秘诀
均安SEO优化策略,全方位提升网站排名秘诀:优化关键词、提高内容质量、加强外链建设、优化网站结构、提升用户体验。通过这些方
北交所科技成长产业跟踪第三期:华为Mate品牌盛典发布鸿蒙AI新品,关注北交所鸿蒙%26星闪相关公司.pdfVIP
源引金融活水润泽中华大地内容目录1.华为Mate品牌盛典如期举行,多款AI终端亮相51.1.Mate70蕴含九大AI功能,MateX6首发星闪关机
一、智能创作平台的全方位解决方案
在数字化时代的浪潮中内容创作已成为企业竞争和塑造的核心环节。传统的内容创作方法往往耗时耗力,且难以保证内容的品质和一致性
【GPT-4】GPT-4 是否已经显示出通用人工智能的迹象?——微软已经为 OpenAI 的 GPT-4 创建了一系列测试,它声称表明人工智能模型已经显示出通用智能的“火花”
目录 GPT-4 是否已经显示出通用人工智能的迹象? Is GPT-4 already showing signs of artificial general intelligence? "We bel
惠普和rog哪个好(6000买惠普还是华硕)
在操作系统选择方面,ROGGU604和HP暗影精灵9/光精灵9均支持流行的Windows和Linux系统,提供灵活的使用环境。 ROGGU604 的快速充
【HM1SUC浏览器下载】小米HM1SUC浏览器17.1.6.1347免费下载
UC专注16年,成就全球第三方手机浏览器全球6亿人上网必备APP,群众的眼睛是雪亮的头条视频小说网盘小游戏,想你之所想一应俱全UC
如何有效获取视频号微信搜索流量(实用技巧,让你的视频号获得更多关注)
视频号微信已经成为了许多人获取流量的何有号获平台、随着社交媒体的效获发展。如何让自己的取视视频号在微信搜索中获得更多的流