爬取豆瓣影评信息并形成词云图

基本信息

源码名称：爬取豆瓣影评信息并形成词云图

源码大小：0.03M

文件格式：.zip

开发语言：Java

更新时间：2025-02-07

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559

本次赞助数额为： 2 元　

源码介绍

通过Jsoup爬取电影影评数据，将爬取的数据通过Ikanalyzer进行自然语言处理进行分词，将分词的数据通过MapReduc进行数据清洗达到kumo做词云图形化展示所要求的数据格式。从而实现从数据爬取-数据分析-数据可视化的整体流程。

public class movieJsoup {

public static void main(String[] args) throws IOException {

int num=0;

//爬取数据存储到本地的地址

File fileName=new File("D:\\MovieData\\data.txt");

BufferedWriter out=new BufferedWriter(new FileWriter(fileName));

//爬取数据的url地址

for (int i = 0; i < 25; i ) {

//爬取数据的url地址

String url="https://movie.douban.com/subject/33456512/comments?start=" num "&limit=20&status=P&sort=new_score";

Connection connection= Jsoup.connect(url);

Document document=connection.userAgent("浏览器的User-Agent ")

.cookie("Cookie","填你自己的")

.timeout(6000)

.ignoreContentType(true)

.get();

//获取span标签中class等于short的内容

Elements elements=document.select("span[class=short]");

for (Element e:elements){

out.write(e.toString().replaceAll("</?[^>] >","") "\r\n");

}

num =20;

}

out.flush();

out.close();

}