曲艺网,童星,教会,证券,图书

如何利用python爬取哔哩哔哩上的弹幕评论?在爬取过后应该如何进行统计分析?

发布时间:

这个实现起来很简单,主要是抓包分析,哔哩哔哩的弹幕信息都保存在一个xml文件中,只要找到这个xml文件,然后进行解析,就能提取到我们所需的弹幕信息,下面我简单介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要内容如下:

1.这里假设我们要爬取的是《动物世界》的弹幕信息,如下,看着信息好多:

接着按F12调出开发者工具如下,分别点击“网络”->“XHR”,刷新页面,查看抓包信息,很快就能发现list.so这个文件很大,而且是xml格式的,很可能是弹幕信息:

打开这个文件,复制链接到浏览器中,果然出现了我们需要的弹幕信息,如下:

2.接着就是爬取这个xml文件,并进行解析了,其实很简单,主要用到requests和BeautifulSoup这2个组合,requests请求xml文件,BeautifulSoup进行解析,很快就能提取到我们需要的弹幕信息,主要代码如下,很简单:

程序运行截图如下,已经成功解析出弹幕信息:

3.对抓取的弹幕信息进行简单统计分析,这里以词云进行显示吧,更直观、明了,还显得高大上,主要是先进行分词,然后再绘制词云,主要用到wordcloud和jieba这2个包,其中jieba用于中文分词,wordcloud用于绘制词云,主要步骤如下:

安装jieba,wordcloud这2个包,这里直接在cmd窗口pip install安装就行,如下:

分词及绘制词云图代码(背景图片可以自行设置),如下,很简单:

程序运行成功后,会在当前目录下生成一个alice_color.png图片,打开这个图片,就是我们生成好的词云图,如下:

可以看得出来,“会员”,“富有”,“微笑”是词频最高的3个词,看来看《动物世界》还需要会员,里面的人物都很富有啊,哈哈哈。

至此,我们就完成了利用python来爬取哔哩哔哩的弹幕信息,并进行了简单的统计展示。总的来说,整个过程不难,只要抓包分析,找到对应的xml文件,结合requests和BeautifulSoup,我们很快就能提取出所需的弹幕信息,网上也有相关资料和教程,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧。

曲艺网,童星,教会,证券,图书 Copyright @ 2011-2019 曲艺网,童星,教会,证券,图书 All Rights Reserved. 版权所有