本文共 615 字,大约阅读时间需要 2 分钟。
最近在设计一个公司的智能客服系统,通过对现有人工客服语料作为样本,通过训练样本完成整个QA过程或业务办理过程。
由第三方语音识别服务提供转换成文本,比如讯飞。
由于机器本来是无法理解文本的含义的,如果要真正做到语义完整的解析理解需要涉及自然语言处理,工程庞大。可以换种思维,由于只是做某个特定行业的客服系统,并不是大而全的智能客服,所以可以通过VSM来匹配QA相关度,在给定的语料中这种匹配效果还是相当不错的。
拿到文本后第一步需要分词,选择一个开源的中文分词器即可,分了词才能往下分析。
主要是匹配用户input和语料,VSM比较常见了,主要是通过词向量才计算文本相似性,它的公式如下
只要匹配最相近得分的即可。
要做到理解上下文语义就需要引入决策树或神经网络,这块还得结合后面北邮博士那边的思路。
========广告时间========
鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以到 进行预定。感谢各位朋友。
=========================
欢迎关注: