基本信息
源码名称:爬取豆瓣影评信息并形成词云图
源码大小:0.03M
文件格式:.zip
开发语言:Java
更新时间:2025-02-07
   友情提示:(无需注册或充值,赞助后即可获取资源下载链接)

     嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300

本次赞助数额为: 2 元 
   源码介绍

通过Jsoup爬取电影影评数据,将爬取的数据通过Ikanalyzer进行自然语言处理进行分词,将分词的数据通过MapReduc进行数据清洗达到kumo做词云图形化展示所要求的数据格式。从而实现从数据爬取-数据分析-数据可视化的整体流程。

public class movieJsoup {

    public static void main(String[] args) throws IOException {

        int num=0;

        //爬取数据存储到本地的地址

        File fileName=new File("D:\\MovieData\\data.txt");

        BufferedWriter out=new BufferedWriter(new FileWriter(fileName));

        //爬取数据的url地址

        for (int i = 0; i < 25; i ) {

            //爬取数据的url地址

            String url="https://movie.douban.com/subject/33456512/comments?start=" num "&limit=20&status=P&sort=new_score";

            Connection connection= Jsoup.connect(url);

            Document document=connection.userAgent("浏览器的User-Agent ")

                    .cookie("Cookie","填你自己的")

                    .timeout(6000)

                    .ignoreContentType(true)

                    .get();

            //获取span标签中class等于short的内容

            Elements elements=document.select("span[class=short]");

            for (Element e:elements){

                out.write(e.toString().replaceAll("</?[^>] >","") "\r\n");

            }

            num =20;

        }

        out.flush();

        out.close();

    }

}