嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 2 元微信扫码支付:2 元
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
通过Jsoup爬取电影影评数据,将爬取的数据通过Ikanalyzer进行自然语言处理进行分词,将分词的数据通过MapReduc进行数据清洗达到kumo做词云图形化展示所要求的数据格式。从而实现从数据爬取-数据分析-数据可视化的整体流程。
public class movieJsoup {
public static void main(String[] args) throws IOException {
int num=0;
//爬取数据存储到本地的地址
File fileName=new File("D:\\MovieData\\data.txt");
BufferedWriter out=new BufferedWriter(new FileWriter(fileName));
//爬取数据的url地址
for (int i = 0; i < 25; i ) {
//爬取数据的url地址
String url="https://movie.douban.com/subject/33456512/comments?start=" num "&limit=20&status=P&sort=new_score";
Connection connection= Jsoup.connect(url);
Document document=connection.userAgent("浏览器的User-Agent ")
.cookie("Cookie","填你自己的")
.timeout(6000)
.ignoreContentType(true)
.get();
//获取span标签中class等于short的内容
Elements elements=document.select("span[class=short]");
for (Element e:elements){
out.write(e.toString().replaceAll("</?[^>] >","") "\r\n");
}
num =20;
}
out.flush();
out.close();
}
}