本文是基于JupyterNotebook做的一个基于Python的音乐推荐系统
目录
1、导入库,定义了一个变量data_home,赋值为'https://blog.csdn.net/m0_62994605/article/details/'
2、数据读取
3、对每一个用户分别统计他的播放总量
4、对于每一首歌分别统计他的播放总量
5、看看目前的排行情况
6、数据截取
7、数据拼接
8、数据清洗
9、基于排行榜首的推荐
10、基于歌曲相似度的推荐
11、基于矩阵分解SVD的推荐
导入系统需要依赖的包pandas,numpy,time,sqlites
读取原始数据文件train_triplets.txt,1,2步骤的代码如下,通过numpy的read_csv方法读取data_home路径下的train_triplets.txt文件,数据文件中只需要用户,歌曲,播放量三个指标;查看数据大小规模以及各指标格式,发现数据大小为(48373586,3),数据量为千万级别,查看info信息,占用1.1+GB内存,数据量非常庞大,查看大小以及指标代码如下
输出:
输出:
数据中有用户的编号,歌曲编号,用户对该歌曲播放的次数。 有了基础数据之后,我们还可以统计出关于用户与歌曲的各项指标
输出: