基本信息
源码名称:特征工程中文字字典特征提取
源码大小:4.87KB
文件格式:.py
开发语言:Python
更新时间:2021-11-02
友情提示:(无需注册或充值,赞助后即可获取资源下载链接)
嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 2 元×
微信扫码支付:2 元
×
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
源码介绍
特征工程中文字字典特征提取
特征工程中文字字典特征提取
from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer import jieba def dict_demo(): data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}] # 实例化 transfer = DictVectorizer(sparse=False) trans_data = transfer.fit_transform(data) print(trans_data) print("特征名字是:\n", transfer.get_feature_names()) def english_count_text_demo(): data = ["Life is short,i like python", "Life is too long, i dislike python"] transfer = CountVectorizer() trans_data = transfer.fit_transform(data) print(trans_data) print(transfer.get_feature_names()) def cut_word(sen): return " ".join(list(jieba.cut(sen))) def chinese_count_text_demo(): data = ["⼀种还是⼀种今天很残酷,明天更残酷,后天很美好,但绝对⼤部分是死在明天晚上,所以每个⼈不要放弃今天。", "我们看到的从很远星系来的光是在⼏百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。", "如果只⽤⼀种⽅式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。" ] li = [] for i in data: li.append(cut_word(i)) transfer = CountVectorizer() trans_data = transfer.fit_transform(li) print(trans_data) print(transfer.get_feature_names()) print(trans_data.toarray()) def tfidf_count_text_demo(): data = ["⼀种还是⼀种今天很残酷,明天更残酷,后天很美好,但绝对⼤部分是死在明天晚上,所以每个⼈不要放弃今天。", "我们看到的从很远星系来的光是在⼏百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。", "如果只⽤⼀种⽅式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"] li = [] for i in data: li.append(cut_word(i)) transfer = TfidfVectorizer() trans_data = transfer.fit_transform(li) print(trans_data) print(transfer.get_feature_names()) print(trans_data.toarray()) if __name__ == '__main__': # chinese_count_text_demo() tfidf_count_text_demo()