首页 > Python资料 博客日记

基于大数据爬虫+Python+SpringBoot+Hive的网络电视剧收视率分析与可视化平台系统(源码+论文+PPT+部署文档教程等)

2024-09-24 09:00:05Python资料围观49

这篇文章介绍了基于大数据爬虫+Python+SpringBoot+Hive的网络电视剧收视率分析与可视化平台系统(源码+论文+PPT+部署文档教程等),分享给大家做个参考,收藏Python资料网收获更多编程知识

博主介绍全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。

主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路

🍅文末获取源码联系🍅

👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟

2022-2024年最全的计算机软件毕业设计选题大全:1000个热门选题推荐✅

Java项目精品实战案例《100套》

Java微信小程序项目实战《100套》

大数据项目实战《100套》

Python项目实战《100套》

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人

系统介绍:

摘  要在当今数字化时代,网络电视剧作为一种新兴的娱乐形式,受到了广泛的关注和欢迎。随着网络电视剧市场的不断扩大和竞争的加剧,各大卫视平台纷纷推出了大量优质的网络电视剧,努力吸引观众和提升收视率。然而,如何科学准确地评估网络电视剧的收视率,了解观众喜好和行为,对于卫视平台和制作方来说是至关重要的。

传统的网络电视剧收视率分析系统往往面临数据量庞大、处理效率低下、分析结果不够精准等挑战,且传统的电视收视率调查方法受限于实时性和准确性。因此,基于Hive的网络电视剧收视率分析系统应运而生。该系统采用python爬虫技术采集网络电视剧的收视数据,结合Scrapy框架进行数据爬取和清洗及预处理,清洗后的数据存储在Hadoop分布式文件系统的HDFS中。使用Hive的SQL语法和内置函数,实现数据的分析和挖掘,使用Element框架搭建美观、响应式的用户界面,并通过使用Echarts可视化工具实现对数据的可视化分析。最终,通过Web应用提供用户查询、分析等功能,为电视剧制作方和平台方提供收视率数据和分析报告,帮助他们做出更准确的决策,促进网络电视剧产业的发展和创新。

关键词:Hive;网络电视剧;收视率分析;Echart可视化

网络电视剧收视率分析系统分为两个模块,一个是前台用户模块,另一个是管理员模块,其中前台模块包含首页、收视率、公告信息、交流论坛、个人中心(包含密码修改、我的发布、我的收藏)等功能;管理员模块包含首页、用户、收视率、公告信息、交流论坛、系统管理、我的信息等功能。其功能结构如图4.1所示:

    程序上交给用户进行使用时,需要提供程序的操作流程图,这样便于用户容易理解程序的具体工作步骤,现如今程序的操作流程都有一个大致的标准,即先通过登录页面提交登录数据,通过程序验证正确之后,用户才能在程序功能操作区页面操作对应的功能。

程序操作流程图

      首先前端通过Vue和axios发送HTTP请求到后端的登录接口。在后端接收登录请求的Controller会使用`@RequestParam Map<String, Object> params`来接收前端传递的用户参数,用户名和密码。然后后端根据接收到的参数创建一个查询条件封装对象MyBatis的EntityWrapper用于构建查询条件。接着在业务层,调用相应的service方法来查询数据库中是否存在匹配的用户信息。这个查询方法Login()会将前端传递的对象参数传递到后台的DAO层,进行数据库的交互操作。如果存在符合条件的用户,则会返回相关的用户信息。最后在后端控制器中将查询结果封装成响应体,通过`return R.ok().put("data", userService.selecView(ew))`将用户信息返回给前端。前端收到响应后,可以通过调用Vue、ElementUI等组件来渲染登录结果,例如显示用户信息或者跳转到相应的页面。

系统架构设计

系统架构设计是软件开发过程中至关重要的一环。首先是模型层(Model),模型层通常对应着数据库或者其他数据源,它负责与数据库进行交互,执行各种数据操作,并将处理后的数据传递给控制器层。模型层的设计应该简洁清晰,尽可能减少与视图和控制器的耦合,以提高代码的可维护性和可重用性。

其次是视图层(View)通常是通过网页、移动应用界面或者其他用户界面来展示数据。视图层与用户交互,接受用户的输入,并将输入传递给控制器层进行处理。在MVC三层架构中,视图层应该尽量保持简单,只负责数据的展示和用户交互,不涉及业务逻辑的处理,以保持视图层的清晰度和可复用性,最后是控制器层(Controller),每个层都有特定的职责和功能,通过分层架构设计,实现代码模块化,为软件开发提供了一种有效的架构模式。系统架构如图4-1所示。

详细视频演示

请文末卡片dd我获取更详细的演示视频

功能截图:

      在系统前台首页调用`$route(newValue)`方法监听路由变化,根据当前的路由地址来确定活动菜单的索引,并且根据路由的哈希部分(即URL的`#`后面的部分)来判断是否需要滚动页面到顶部或者某个特定元素的位置。如果不是首页,会将页面滚动到指定元素处,否则滚动到页面顶部。另外通过`headportrait()`方法用于更新组件渲染点前用户头像。在用户登录后,后端返回了新的用户信息,需要及时更新页面上的用户头像信息。

5 系统详细设计与实现

5.1 系统功能实现

在注册流程中,用户在Vue前端填写用户名、密码等,通过HTTP请求发送到Java后端接收[13],首先进行用户名唯一性检查,确保新用户提供的用户名未被注册过。随后,后端将新用户的信息存入MySQL数据库中,包括用户名和密码等重要信息。一旦用户数据成功存储,后端向前端发送注册成功的确认消息。前端接收到确认消息后,立即通知用户注册流程已完成,使用户能够顺利完成注册。这个过程实现了新用户的数据收集、验证和存储,确保了注册流程的顺利进行。如图5.1所示。

图5.1 系统注册界面

    

系统首页界面如图5.2所示

图5.2 系统首页界面

在收视率页面可以查看到时间段、排名、播出集数、收视率、收视份额、播出频道、点击次数等详细信息,并根据需要进行评论或收藏操作;收视率页面如图5.3所示。

图5.3 收视率界面

个人中心:用户在个人中心页面可以进行个人信息、密码的修改,查看我的发布、我的收藏等操作;如图5.4所示。

图5.4 个人中心界面

5.2 管理员功能实现

在登录流程中,用户首先在Vue前端界面输入用户名和密码。这些信息通过HTTP请求发送到Java后端。后端接收请求,通过与MySQL数据库交互验证用户凭证。如果认证成功,后端会返回给前端,允许用户访问系统。这个过程涵盖了从用户输入到系统验证和响应的全过程。如图5.5所示。

图5.5 管理员登录界面

进入管理员主页面,可对用户、收视率、公告信息、交流论坛、系统管理、我的信息等进行操作。如图5.6所示:

图5.6 管理员主界面

管理员点击进入用户界面,可以对用户信息进行查看、修改、增加、或删除的操作。如图5.7所示:

图5.7 用户界面

管理员点击进入收视率界面,可以查看、修改、或删除收视率信息,也可进行爬取数据和生成数据的操作。如图5.8所示:

图5.8 收视率界面

管理员点击进入公告信息界面,可对公告信息进行查看、修改、删除或增加的操作。如图5.9所示。

图5.9 公告信息界面

管理员点击进入系统管理界面,可对系统简介页进行查看、修改等操作,还可以对轮播图管理进行详细操作。如图5.10所示。

图5.10 系统管理界面

5.3数据采集

系统数据使用python里面的requests、urllib包进行数据爬取[14],爬取的网站为中国视听大数据官网,网络电视剧收视统计平台一般都有较强的反爬机制,通过使用代理IP轮换请求,有助于规避反爬虫机制,再进行数据获取。

定义一个Scrapy爬虫类`WangLuoDianShiShouShiSpider`,用于爬取指定网站的网络电视剧收视统计信息。`name`定义了爬虫的名称,`spiderUrl`指定了目标网站的URL,`start_urls`将目标网站的URL按分号拆分成一个列表,作为爬取的起始URL。`protocol`和`hostname`用于定义协议和主机名,暂时为空。`realtime`用于指定是否实时获取数据,初始化为False。

数据采集部分代码如图5.11所示:

图5.11 数据采集部分代码截图

使用parse方法中进行一些初始化操作和判断条件。首先,通过urlparse函数解析self.spiderUrl得到URL的协议和主机名,并将其分别赋值给self.protocol和self.hostname。 然后,通过platform.system().lower()获取当前操作系统的名称,并将其转换为小写字母,保存在plat变量中。 接着,判断条件如果不是实时爬取(self.realtime为False)并且当前操作系统是Linux或Windows,建立数据库连接,并将连接对象赋值给connect变量。获取数据库的游标对象,并将其赋值给cursor变量,调用table_exists函数检查数据库中是否存在名为'5nw5u40i_guangdonglvyou '的表,如果存在就执行关闭游标和连接,调用temp_data函数,最后返回。

使用Scrapy爬虫的回调函数,进行解析详情页面,从response的meta中获取字段对象fileds,最后对其进行赋值和处理。

5.4 数据处理

在基于Hive的网络电视剧收视率分析系统开发中,数据处理是至关重要的环节。数据清洗和预处理是数据分析过程中必不可少的环节。通过去除重复项、纠正错误数据等操作,可以提高数据的质量和完整性,确保后续分析的准确性和可靠性。在数据清洗过程中,采用pandas库进行分析,并结合Scrapy框架进行数据爬取和清洗,以确保数据的准确性和可用性。最后,数据存储阶段采用了MySQL数据库[15],以确保数据的安全性和可扩展性。以下是详细的数据处理流程:

创建一个MySQL数据库的连接引擎,使用root用户和密码为123456来连接名为spider5nw5u40i的数据库,使用pandas的read_sql函数从数据库中读取数据。代码如下所示:

首先,检查DataFrame对象df是否存在重复的行,使用'df.drop_duplicates()'函数删除对象中重复行。调用'df.isnull()'函数检测对象df'中的缺失值。随后调用'df.dropna()'函数删除具有缺失值的行。'df.fillna(value='暂无')'函数将对象df中的缺失值替换为指定的值'暂无'。代码如下所示:

生成一个包含200个介于0到1000之间的随机整数的数组a,然后定义了一个布尔条件cond,用于筛选满足a在100到800之间的元素。生成一个包含10万个符合标准正态分布的随机数的数组b,定义一个布尔条件cond,用于筛选满足b的绝对值大于3的元素。

创建一个形状为10000行3列的DataFrame df2,其中的数据是符合标准正态分布的随机数。定义一个布尔条件cond,用于筛选在df2中任意一列的值大于三倍标准差的行。该行代码使用索引操作df2[cond].index,获取满足条件cond的行的索引。删除具有指定索引的行,并返回更新后的对象df2。移除HTML标签,首先,检查html参数是否为None,如果是则返回空字符串。然后使用正则表达式模式匹配HTML标签的正则表达式(<[^>]+>),并通过re.sub函数将匹配到的HTML标签替换为空字符串。最后使用strip函数去除字符串两端的空白字符,并返回处理后的结果。

进行数据库连接,获取数据库的连接参数。如果没有指定数据库名称,则尝试从self.databaseName中获取。然后根据数据库类型选择相应的数据库连接方式,如果是MySQL,则使用pyMySQL库进行连接,否则使用pymssql库进行连接。最后返回连接对象connect。

将处理好的数据进行数据存储,定义一个包含插入语句的sql字符串,目标数据库表是guangdonglvyou,列名包括id、jobname、salary等,从表5nw5u40i_guangdonglvyou中选择符合条件的数据,将这些数据插入到目标表中。执行sql语句,将临时数据插入到目标表中,最后提交事务和关闭数据库连接。数据清洗部分代码如图5.12所示:

图5.12 数据清洗部分代码截图

5.5数据可视化大屏

数据采集、数据处理完成后,进行数据可视化分析,通过对数据进行数据可视化,使数据更加直观与清晰,管理员可以通过这些信息进行及时的收视率策略调整和管理,为网络电视剧收视率分析系统提供了有力的支持。通过网络电视收视率数据绘制了词云图,如图5-13所示,可以看到不同的剧名的词云图分析。

图5-13词云图分布图

通过播出频道制作了圆形形图,如图5-14所示:分析图表可以看到不同播出频道的整体占比分布,其中大部分的播出频道最高的是东方卫视的为53.42%,其次是北京卫视34.25%等。以上图表呈现了不同播出频道的收视比例。   

图5-14播出频道分析图表

通过对网络电视排名数据绘制了柱状折线图,如图5-15所示,分析图表可以看到不同网络电视的排名情况。

图5-15工作经验分析图表

通过对收视率制作了网络电视表格排名,如图5-16所示,分析表格可以到网络电视收视率的排名情况、播出情况、收视率等整体情况,管理员可以根据这些信息为用户推荐网络电视,提高资源利用效率。

图5-16工作地点分析图表

最后,为了能够更加直观清晰展示数据,我们制作了可视化大屏,可以帮助管理员快速获取和分析信息,从而做出更好决策。在可视化大屏可以看到系统简介、剧名、播出频道、排名、用户人数、收视率、收拾份额、用户总数、收视率总数、收视率详情等实时的分析可视化图表,可视化分析大屏界面如图5.17所示:

图5.17 网络电视收视率分析大屏界面

论文参考:

1 绪  论

1.1研究背景与意义

1.2系统研究现状

1.3 论文主要工作内容

2 系统关键技术

2.1 java简介

2.2 MySQL数据库

2.3 B/S结构

2.4 SpringBoot框架

2.5 VUE框架

3 系统分析

3.1 系统可行性分析

3.1.1 技术可行性

3.1.2 操作可行性

3.1.3 经济可行性

3.1.4 法律可行性

3.2 系统性能分析

3.3 系统功能分析

3.4 系统流程分析

3.4.1 数据开发流程

3.4.2 用户登录流程

3.4.3 系统操作流程

3.4.4 添加信息流程

3.4.5 修改信息流程

3.4.6 删除信息流程

4 系统设计

4.1 系统概要

4.2 系统结构设计

4.3数据库设计

4.3.1 数据库设计原则

4.3.3 数据库表设计

4.4 系统时序图

4.4.1 注册时序图

4.4.2 登录时序图

4.4.3 管理员修改用户信息时序图

4.4.4 管理员管理系统信息时序图

5 系统的实现

5.1前台功能实现

5.1.1系统首页页面

5.1.2个人中心

5.2后台管理员功能实现

6 系统测试

6.1 测试环境

6.2 测试目的

6.3 测试概述

6.4 单元测试

6.4.1 注册测试

6.4.2 登录测试

6.5 集成测试

结  论

参考文献

致  谢

代码实现:

/**
 * 登录相关
 */
@RequestMapping("users")
@RestController
public class UserController{
    
    @Autowired
    private UserService userService;
    
    @Autowired
    private TokenService tokenService;

    /**
     * 登录
     */
    @IgnoreAuth
    @PostMapping(value = "/login")
    public R login(String username, String password, String role, HttpServletRequest request) {
        UserEntity user = userService.selectOne(new EntityWrapper<UserEntity>().eq("username", username));
        if(user != null){
            if(!user.getRole().equals(role)){
                return R.error("权限不正常");
            }
            if(user==null || !user.getPassword().equals(password)) {
                return R.error("账号或密码不正确");
            }
            String token = tokenService.generateToken(user.getId(),username, "users", user.getRole());
            return R.ok().put("token", token);
        }else{
            return R.error("账号或密码或权限不对");
        }

    }
    
    /**
     * 注册
     */
    @IgnoreAuth
    @PostMapping(value = "/register")
    public R register(@RequestBody UserEntity user){
//        ValidatorUtils.validateEntity(user);
        if(userService.selectOne(new EntityWrapper<UserEntity>().eq("username", user.getUsername())) !=null) {
            return R.error("用户已存在");
        }
        userService.insert(user);
        return R.ok();
    }

    /**
     * 退出
     */
    @GetMapping(value = "logout")
    public R logout(HttpServletRequest request) {
        request.getSession().invalidate();
        return R.ok("退出成功");
    }
    
    /**
     * 密码重置
     */
    @IgnoreAuth
    @RequestMapping(value = "/resetPass")
    public R resetPass(String username, HttpServletRequest request){
        UserEntity user = userService.selectOne(new EntityWrapper<UserEntity>().eq("username", username));
        if(user==null) {
            return R.error("账号不存在");
        }
        user.setPassword("123456");
        userService.update(user,null);
        return R.ok("密码已重置为:123456");
    }
    
    /**
     * 列表
     */
    @RequestMapping("/page")
    public R page(@RequestParam Map<String, Object> params,UserEntity user){
        EntityWrapper<UserEntity> ew = new EntityWrapper<UserEntity>();
        PageUtils page = userService.queryPage(params, MPUtil.sort(MPUtil.between(MPUtil.allLike(ew, user), params), params));
        return R.ok().put("data", page);
    }

    /**
     * 信息
     */
    @RequestMapping("/info/{id}")
    public R info(@PathVariable("id") String id){
        UserEntity user = userService.selectById(id);
        return R.ok().put("data", user);
    }
    
    /**
     * 获取用户的session用户信息
     */
    @RequestMapping("/session")
    public R getCurrUser(HttpServletRequest request){
        Integer id = (Integer)request.getSession().getAttribute("userId");
        UserEntity user = userService.selectById(id);
        return R.ok().put("data", user);
    }

    /**
     * 保存
     */
    @PostMapping("/save")
    public R save(@RequestBody UserEntity user){
//        ValidatorUtils.validateEntity(user);
        if(userService.selectOne(new EntityWrapper<UserEntity>().eq("username", user.getUsername())) !=null) {
            return R.error("用户已存在");
        }
        userService.insert(user);
        return R.ok();
    }

    /**
     * 修改
     */
    @RequestMapping("/update")
    public R update(@RequestBody UserEntity user){
//        ValidatorUtils.validateEntity(user);
        userService.updateById(user);//全部更新
        return R.ok();
    }

    /**
     * 删除
     */
    @RequestMapping("/delete")
    public R delete(@RequestBody Integer[] ids){
        userService.deleteBatchIds(Arrays.asList(ids));
        return R.ok();
    }
}

推荐项目:

基于大数据爬虫+数据可视化的农村产权交易与数据可视化平台

基于SpringBoot+数据可视化+大数据二手电子产品需求分析系统

基于SpringBoot+数据可视化+协同过滤算法的个性化视频推荐系统

基于大数据+爬虫+数据可视化的的亚健康人群数据可视化平台

基于SpringBoot+大数据+爬虫+数据可视化的的媒体社交与可视化平台

基于大数据+爬虫+数据可视化+SpringBoot+Vue的智能孕婴护理管理与可视化平台系统

基于大数据+爬虫+数据可视化+SpringBoot+Vue的虚拟证券交易平台

基于大数据+爬虫技术+数据可视化的国漫推荐系统

基于大数据爬虫+Hadoop+数据可视化+SpringBoo的电影数据分析与可视化平台

基于python+大数据爬虫技术+数据可视化+Spark的电力能耗数据分析与可视化平台

基于SpringBoot+Vue四川自驾游攻略管理系统设计和实现

基于SpringBoot+Vue+安卓APP计算机精品课程学习系统设计和实现

基于Python+大数据城市景观画像可视化系统设计和实现

基于大数据+Hadoop的豆瓣电子图书推荐系统设计和实现

基于微信小程序+Springboot线上租房平台设计和实现-三端

2022-2024年最全的计算机软件毕业设计选题大全

基于Java+SpringBoot+Vue前后端分离手机销售商城系统设计和实现

基于Java+SpringBoot+Vue前后端分离仓库管理系统设计实现

基于SpringBoot+uniapp微信小程序校园点餐平台详细设计和实现

基于Java+SpringBoot+Vue+echarts健身房管理系统设计和实现

基于JavaSpringBoot+Vue+uniapp微信小程序实现鲜花商城购物系统

基于Java+SpringBoot+Vue前后端分离摄影分享网站平台系统 

基于Java+SpringBoot+Vue前后端分离餐厅点餐管理系统设计和实现

基于Python热门旅游景点数据分析系统设计与实现

项目案例: 

 

为什么选择我

 博主本身从事开发软件开发、有丰富的编程能力和水平、累积给上千名同学进行辅导、全网累积粉丝超过50W。是CSDN特邀作者、博客专家、新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流和合作。 

源码获取:

大家点赞、收藏、关注、评论啦 、查看👇🏻获取联系方式👇🏻

 精彩专栏推荐订阅下方专栏👇🏻

2022-2024年最全的计算机软件毕业设计选题大全:1000个热门选题推荐✅

Java项目精品实战案例《100套》

Java微信小程序项目实战《100套》

Python项目实战《100套》


版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐