您的位置: 主页 > 人工智能机器人 > 故宫不雅照:基于SVM的商品评分系统

故宫不雅照:基于SVM的商品评分系统

时间: 2019-01-24阅读:

摘要:随着网购平台快速崛起,如何快速准确地在海量的消费者评价文本当中提取消费者对商品评论的主观倾向成为近年来的研究热点。本文以商品评论文本倾向识别为研究对象,使用SVM算法,实现了基于SVM的商品评分系统,并实现了客户端和训练端的分离,方便训练端实现分布式架构。

关键词: 文本分类;倾向识别;支持向量机;SVM算法;商品评分;

中图分类号:TP311.1 文献标识码:A 文章编号:1009-3044(2018)30-0223-03

Abstract: With the rapid rise of online shopping platform, how to quickly and accurately extract the subjective tendency of consumers to product reviews in the mass of consumer evaluation text has become a research hotspot in recent years. In this thesis, the tendency of commodity comment text recognition is considered as the research object. Using SVM algorithm, the SVM-based commodity scoring system is implemented, and the client and training end are separated, which facilitates the training end to realize the distributed architecture.

Key words: Text Categorization; Emotion recognition; Support Vector Machine; SVM; Product rating

1 引言

20世纪90年代,计算机技术的迅猛发展,催生了属于21世纪的新一代商品交易形式——电子商务,为我们打开了商品交易的一扇新的大门,网络使得人们可以足不出户,便可尽览天下商品,即使身处异地,也可以互通有无。随着网络和计算机硬件的不断升级,各种形式的电子商务平台正在取代传统的市集,成为我们商品交易的新选择。这种扎根于互联网的新兴经济活动,一经出现便迅速发展壮大。自2003年淘宝网成立以来,中国的网络购物行业迅猛发展,时至今日,中国互联网内已催生出以淘宝、京东、苏宁等巨头为首的近百家中大型互联网购物平台。但由于网络交流天然的地域隔离性,消费者往往面临着信息不对称的尴尬境地,难以有效地了解商品的质量、服务等有效信息,急需一套商品评价系统来帮助用户做出正确的消费决策。

2 基于SVM的商品评分预测

2.1 特征词选取

原始文本存在大量的词,使得计算的维度非常高,我们需要在文本中选取能够代表文本属性的特征词作为权重计算的词,从而降低计算的复杂度。

如果词语有很好的区分能力,很少的词语就能起到区分文本的作用[1]。这些具有高区分度的词语就叫作特征词。目前计算特征词的算法主要有以下几种:文档频率(DF,Document Frequency)、信息增益(IG,Information Gain)、卡方校验(CHI,Chi-square Test)。

卡方校验是通过观察实际值与理论值的偏差来确定理论是否正确。本文将采用计算效率高、算法实现简单的卡方校验法作为征值选取算法。

2.2 特征词权重

在文本情感傾向识别算法中,我们常用的特征向量值是词频-逆文本频率,即TF-IDF(Term Frequency-Inverse Document Frequency)算法。TF-IDF是一种用于文本处理的权重计算算法,如果一个词在一篇文章中出现的频率高,并且在其他文章中出现的频率小,则认为这个词对文本具有很好的区分能力。为了方便特征词TD-IDF值参与SVM的计算,我们使用自然数对特征词进行标号,然后使用已经标号的特征词对语料文本中的每一条文本计算其中包含的特征词的TD-IDF值,这样就能得到适用于SVM算法计算的特征词向量集。

2.3 SVM算法

支持向量机(Support Vector Machine, SVM)以其出色的性能和精准性,在文本挖掘、手写识别等多个领域得到了成功的应用。SVM的特点可以简单概括为以下两点:

1) SVM算法是在样本线性可分的情况下进行计算的,对于线性不可分的样本,SVM算法采用核函数方法,把样本点映射到高维空间中,使其在高维空间中线性可分,这种转化使得SVM算法可以对绝大多数线性不可分的样本进行分类计算。

2) SVM算法基于结构风险最小化理论在特征空间中构建最优的超平面,使得算法的计算获得全局最优化[2]。

2.4 实验结果与分析

2.4.1 实验工具与语料数据集

本次实验使用的语料集采用的是来自自然语言处理与信息检索共享平台的谭松波先生分享出来的中文情感挖掘语料[3]。包括携程酒店评论、当当书籍评论和京东电脑评论三个领域,每个领域正负面评价各2000条,从每个评论的正负面评论中随机抽取200条,共1200条评论语料作为测试集。

实验使用Java编程语言,实验过程中使用到的主要算法实现工具为Libsvm和HanLp分词工具包。将训练模型对测试集预测的准确率高低作为本次实验的评判标准。

2.4.2 实验结果

本小节针对SVM算法中的各个参数选择进行实验。svm的核函数包括线性核函数、RBF核函数、多项式核函数和Sigmoid核函数,由于线性核函数无参数选择,实验将分别对后三个核函数进行实验,其中多项式核函数存在多个参数,实验过程中非因变量的参数将使用Libsvm默认的参数值。RBF核函数、多项式核函数和Sigmoid核函数实验结果分别如图1至图3所示。

上一篇:简明仁:基于双创理念的大学生职业倾向与心理健康分析
下一篇:没有了

相关阅读