基本信息
源码名称:C# 汉字转拼音源码(分词算法处理多音字,含声调 音调)
源码大小:4.19M
文件格式:.zip
开发语言:C#
更新时间:2015-01-03
   友情提示:(无需注册或充值,赞助后即可获取资源下载链接)

     嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300

本次赞助数额为: 2 元 
   源码介绍


using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Text.RegularExpressions;

namespace TextToPinyin
{
    public partial class TextToPinyinForm : Form
    {
        //词典的文件名,含路径
        string filename;

        public TextToPinyinForm()
        {
            InitializeComponent();

            //初始化词典文件路径;
            filename = @"Dictionary\\Dictionary.xml";

        }



        //测试各个分词模块
        private void SegWords()
        {
            //清理输出文本框
            textBoxOutput.Text = "";

            //要检测的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }

            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }

            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();

            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }


            //将正向分词结果显示出来
            textBoxOutput.Text  = "正向分词:";
            foreach (string word in wordsLeft)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }

            //换行
            textBoxOutput.Text  = "\r\n";

            //进行逆向分词
            List<string> wordsRight = Helper.Segmentation.SegMMRightToLeft(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsRight == null)
            {
                MessageBox.Show("逆向分词模块执行失败");
                return;
            }

            //将正向分词结果显示出来
            textBoxOutput.Text  = "逆向分词:";
            foreach (string word in wordsRight)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }

            //换行
            textBoxOutput.Text  = "\r\n";



            //进行双向分词
            List<string> wordsDouble = Helper.Segmentation.SegMMDouble(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsDouble == null)
            {
                MessageBox.Show("双向分词模块执行失败");
                return;
            }

            //将正向分词结果显示出来
            textBoxOutput.Text  = "双向分词:";
            foreach (string word in wordsDouble)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }



        }

        //测试读取词典
        private void ReadDict()
        {
            //清空输出框内容
            textBoxOutput.Text = "";

            //读取词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //显示词典条数
            textBoxOutput.Text = "词典读取成功,获得词条:";
            textBoxOutput.Text  = dict.Dictionary.Count;
            textBoxOutput.Text  = "条。";
            textBoxOutput.Text  = "\r\n";

            //提示只显示前100条,不然程序会卡死
            if (dict.Dictionary.Count > 100)
            {
                textBoxOutput.Text  = "只显示词典的前100条,太多程序会卡死:";
                textBoxOutput.Text  = "\r\n";
            }
            else
            {
                textBoxOutput.Text  = "词典所有内容如下:";
                textBoxOutput.Text  = "\r\n";
            }

            //将词典内容显示在窗口中,只显示前100条
            int i = 0;
            foreach (KeyValuePair<string, string> pair in dict.Dictionary)
            {
                textBoxOutput.Text  = pair.Key;
                textBoxOutput.Text  = ", ";
                textBoxOutput.Text  = pair.Value;
                textBoxOutput.Text  = "\r\n";

                //只显示前100条
                i  ;
                if (i >= 100)
                    break;
            }
        }

        //判断输入的字符是否符合格式
        private bool CheckInputText(string inputStr)
        {
            //字符串不能为空
            if (string.IsNullOrEmpty(inputStr))
                return false;

            //判断字符串是否完全是中文
            //匹配中文字符的正则表达式
            //还要匹配换行符
            string patternCN = @"^[\u4e00-\u9fa5\r\n] $";

            //匹配表达式,如果匹配成功,说明格式符合要求
            if (Regex.IsMatch(textBoxInput.Text, patternCN))
            {
                return true;
            }
            else
                return false;
        }

        //将汉字转化为拼音
        private void ConvertCnToPinyin()
        {
            //清理输出文本框
            textBoxOutput.Text = "";

            //要转换的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }

            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }

            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();

            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }

            //转为拼音
            string pinyin = "";
            foreach (string word in wordsLeft)
            {
                //如果是单字,要检测字典中是否包含该单字
                if (word.Length == 1 && !dict.Dictionary.ContainsKey(word))
                {
                    //如果词典中不包含该中文单字,就要从微软的dll库读取拼音
                    pinyin = Helper.PinyinConvert.GetFirstPinYinCount(word.ToCharArray()[0]).ToLower();
                }
                else
                {
                    //一般情况不用检测,直接取词典中的拼音即可
                    pinyin = dict.Dictionary[word].ToLower();
                }

                //但如果不需要声调,还必须去掉声调
                if (!checkBoxWithTone.Checked)
                {
                    //这个正则表达式表示,去掉字符串中的数字
                    pinyin = Regex.Replace(pinyin, @"\d", "");
                }

                //将拼音显示出来
                textBoxOutput.Text  = pinyin;

                //结尾加个空格
                textBoxOutput.Text  = " ";
            }

            //去掉最后一个空格
            textBoxOutput.Text = textBoxOutput.Text.Trim();

        }


        //测试读取词典
        private void buttonTestDict_Click(object sender, EventArgs e)
        {
            ReadDict();
        }

        //测试分词模块
        private void buttonSegm_Click(object sender, EventArgs e)
        {
            //测试分词
            SegWords();
        }

        //转换中文为拼音
        private void buttonCnToPinyin_Click(object sender, EventArgs e)
        {
            //转为拼音
            ConvertCnToPinyin();
        }

        //去掉非中文字符
        private void buttonRemoveUnCn_Click(object sender, EventArgs e)
        {
            //下面的正则表达式表示:去掉所有的非中文字符
            textBoxInput.Text = Regex.Replace(textBoxInput.Text, @"[^\u4e00-\u9fa5]*", "");
        }


        //选择用户自己的词典
        private void buttonSelectDict_Click(object sender, EventArgs e)
        {
            //将用户选择的文件名和路径,指定为用户词典文件
            if (openFileDialogDict.ShowDialog() == DialogResult.OK)
            {
                filename = openFileDialogDict.FileName;
                MessageBox.Show("词典更改为:"   filename);
            }
        }


    }
}