首页 > 资讯 > 后端开发 > Python >怎么使用Python构建电影推荐系统

320

分享到

怎么使用Python构建电影推荐系统

2023-07-06 01:07:26 320人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要讲解了“怎么使用python构建电影推荐系统”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么使用Python构建电影推荐系统”吧！导入数据导入和合并数据集并创建 pandas

这篇文章主要讲解了“怎么使用python构建电影推荐系统”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么使用Python构建电影推荐系统”吧！

导入数据

导入和合并数据集并创建 pandas DataFrame

MovieLens 20M 数据集自 1995 年以来超过 2000 万的电影评级和标记活动。

# usecols 允许选择自己选择的特征，并通过dtype设定对应类型movies_df=pd.read_csv('movies.csv', usecols=['movieId','title'], dtype={'movieId':'int32','title':'str'})movies_df.head()

怎么使用Python构建电影推荐系统

ratings_df=pd.read_csv('ratings.csv', usecols=['userId', 'movieId', 'rating','timestamp'], dtype={'userId': 'int32', 'movieId': 'int32', 'rating': 'float32'})ratings_df.head()

怎么使用Python构建电影推荐系统

检查是否存在任何空值以及两个数据中的条目数。

# 检查缺失值movies_df.isnull().sum()

movieId 0

title 0

dtype: int64

ratings_df.isnull().sum()

userId 0

movieId 0

rating 0

timestamp 0

dtype: int64

print("Movies:",movies_df.shape)print("Ratings:",ratings_df.shape)

Movies: (9742, 2)

Ratings: (100836, 4)

合并列上的数据帧 'movieId'

# movies_df.info()# ratings_df.info()movies_merged_df=movies_df.merge(ratings_df, on='movieId')movies_merged_df.head()

怎么使用Python构建电影推荐系统

现在已经成功合并了导入的数据集。

添加衍生特征

添加必要的特征来分析数据。

通过按电影标题对用户评分进行分组来创建'Average Rating' & 'Rating Count'列。

movies_average_rating=movies_merged_df.groupby('title')['rating'] .mean().sort_values(ascending=False).reset_index().rename(columns={'rating':'Average Rating'})movies_average_rating.head()

怎么使用Python构建电影推荐系统

movies_rating_count=movies_merged_df.groupby('title')['rating'].count().sort_values(ascending=True) .reset_index().rename(columns={'rating':'Rating Count'}) #ascending=Falsemovies_rating_count_avg=movies_rating_count.merge(movies_average_rating, on='title')movies_rating_count_avg.head()

怎么使用Python构建电影推荐系统

目前已经创建了 2 个新的衍生特征。

数据可视化

使用 Seaborn 可视化数据：

经过分析发现，许多电影在近 10 万用户评分的数据集上都有完美的 5 星平均评分。这表明存在异常值，我们需要通过可视化进一步确认。
多部电影的评分比较单一，建议设置一个评分门槛值，以便产生有价值的推荐。

使用 seaborn & matplotlib 可视化数据，以便更好地观察和分析数据。

将新创建的特征绘制直方图，并查看它们的分布。设置 bin 大小为80，该值的设置需要具体分析，并合理设置。

# 导入可视化库import seaborn as snsimport matplotlib.pyplot as pltsns.set(font_scale = 1)plt.rcParams["axes.grid"] = Falseplt.style.use('dark_background')%matplotlib inline# 绘制图形plt.figure(figsize=(12,4))plt.hist(movies_rating_count_avg['Rating Count'],bins=80,color='tab:purple')plt.ylabel('Ratings Count(Scaled)', fontsize=16)plt.savefig('ratinGCounthist.jpg')plt.figure(figsize=(12,4))plt.hist(movies_rating_count_avg['Average Rating'],bins=80,color='tab:purple')plt.ylabel('Average Rating',fontsize=16)plt.savefig('avgratinghist.jpg')

怎么使用Python构建电影推荐系统

图1 Average Rating直方图

怎么使用Python构建电影推荐系统

图2 Rating Count的直方图

现在创建一个joinplot二维图表，将这两个特征一起可视化。

plot=sns.jointplot(x='Average Rating', y='Rating Count', data=movies_rating_count_avg, alpha=0.5,  color='tab:pink')plot.savefig('joinplot.jpg')

怎么使用Python构建电影推荐系统

Average Rating和Rating Count的二维图

分析

图1证实了，大部分电影的评分都是较低的。除了设置阈值之外，我们还可以在这个用例中使用一些更高百分比的分位数。
直方图 2 展示了“Average Rating”的分布函数。

数据清洗

运用describe()函数得到数据集的描述统计值，如分位数和标准差等。

pd.set_option('display.float_fORMat', lambda x: '%.3f' % x)print(rating_with_RatingCount['Rating Count'].describe())

count 100836.000mean58.759std 61.965min1.00025% 13.00050% 39.00075% 84.000max329.000Name: Rating Count, dtype: float64

设置阈值并筛选出高于阈值的数据。

popularity_threshold = 50popular_movies= rating_with_RatingCount[rating_with_RatingCount['Rating Count']>=popularity_threshold]popular_movies.head()# popular_movies.shape

怎么使用Python构建电影推荐系统

至此已经通过过滤掉了评论低于阈值的电影来清洗数据。

创建数据透视表

创建一个以用户为索引、以电影为列的数据透视表

为了稍后将数据加载到模型中，需要创建一个数据透视表。并设置'title'作为索引，'userId'为列，'rating'为值。

import osmovie_features_df=popular_movies.pivot_table(index='title',columns='userId',values='rating').fillna(0)movie_features_df.head()movie_features_df.to_excel('output.xlsx')

怎么使用Python构建电影推荐系统

接下来将创建的数据透视表加载到模型。

建立 kNN 模型

建立 kNN 模型并输出与每部电影相似的 5 个推荐

使用scipy.sparse模块中的csr_matrix方法，将数据透视表转换为用于拟合模型的数组矩阵。

from scipy.sparse import csr_matrixmovie_features_df_matrix = csr_matrix(movie_features_df.values)

最后，使用之前生成的矩阵数据，来训练来自sklearn中的NearestNeighbors算法。并设置参数：metric = 'cosine', alGorithm = 'brute'

from sklearn.neighbors import NearestNeighborsmodel_knn = NearestNeighbors(metric = 'cosine', algorithm = 'brute')model_knn.fit(movie_features_df_matrix)

现在向模型传递一个索引，根据'kneighbors'算法要求，需要将数据转换为单行数组，并设置n_neighbors的值。

query_index = np.random.choice(movie_features_df.shape[0])distances, indices = model_knn.kneighbors(movie_features_df.iloc[query_index,:].values.reshape(1, -1),n_neighbors = 6)

最后在 query_index 中输出出电影推荐。

for i in range(0, len(distances.flatten())):if i == 0:print('Recommendations for {0}:n'.format(movie_features_df.index[query_index]))else:print('{0}: {1}, with distance of {2}:'.format(i, movie_features_df.index[indices.flatten()[i]],distances.flatten()[i]))

Recommendations for Harry Potter and the Order of the Phoenix (2007):1: Harry Potter and the Half-Blood Prince (2009), with distance of 0.2346513867378235:2: Harry Potter and the Order of the Phoenix (2007), with distance of 0.3396233320236206:3: Harry Potter and the Goblet of Fire (2005), with distance of 0.4170845150947571:4: Harry Potter and the Prisoner of Azkaban (2004), with distance of 0.4499547481536865:5: Harry Potter and the Chamber of Secrets (2002), with distance of 0.4506162405014038:

感谢各位的阅读，以上就是“怎么使用Python构建电影推荐系统”的内容了，经过本文的学习后，相信大家对怎么使用Python构建电影推荐系统这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

您可能感兴趣的文档:

--结束END--

本文标题: 怎么使用Python构建电影推荐系统

本文链接: https://lsjlt.com/news/357221.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么使用Python构建电影推荐系统

导入数据

导入和合并数据集并创建 pandas DataFrame

添加衍生特征

数据可视化

分析

数据清洗

创建数据透视表

建立 kNN 模型

怎么使用Python构建电影推荐系统

使用Python构建电影推荐系统

PHP在网络电影推荐系统开发中的应用

如何在Python中构建一个简单的推荐系统

如何利用ChatGPT和Python实现智能推荐系统的构建

如何使用ChatGPT PHP构建智能音乐推荐聊天系统

推荐系统MostPopular算法的Python怎么实现

Python 机器学习项目实战：教你构建一个智能推荐系统

异步协程开发指南：构建高性能的推荐系统

利用Python实现电影订票系统

利用python构建Mock系统

电脑影子系统怎么退出

如何使用MySQL和Java实现一个简单的电影推荐功能

如何使用Redis和Swift开发推荐系统功能

如何使用Redis和Perl开发推荐系统功能

如何使用Go语言和Redis实现推荐系统

怎么使用Python构建GUI

电脑影子系统pe怎么删除

springboot基于JAVA的电影推荐系统的开发与实现附源码-毕业设计112306

（附源码）springboot基于JAVA的电影推荐系统的开发与实现毕业设计112306

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义