文本挖掘——大数据新技能get√

来源于: 日期:2014-08-13

何为大数据?顾名思义🦸🏼‍♂️,即数据规模庞大之意,但至少要满足规模性、多样性、高速性和价值密度低四个特点。规模性无疑是指数据量大,是大数据的基本属性👰🏿‍♂️;多样性强调数据类型齐全,既包括定义好的结构化数据🎼,又包括文本数据🍆、图表数据等非结构化数据♣︎,是广义概念上的数据👈🏿;高速性要求数据处理速度快,是区别于传统海量数据处理的重要特征🍛;价值密度低是大数据关注的非结构化数据的重要属性🔪,大数据关注事物的全部细节,直接采用原始数据🧐,保留数据的原貌🐥,无疑也引入了大量没有意义的信息😪,因而价值密度低🟠。

大数据的发展离不开相关技术的支撑🧑🏼‍🏫。互联网和物联网将现实世界中的一切用数据化的方式描述和储存下来,积累了大量数据,保证了大数据的规模性和多样性;云计算将分散在各个角落的计算能力、储存设备通过网络整合起来,大大提高了大数据的运算和存储能力🤷🏽‍♀️;数据挖掘则将这些海量的原始数据进行处理以得到“被证实的知识”,从而克服大数据价值密度低的特点🚿。

作为数据挖掘的一种👨,文本挖掘是指为了发现知识,从文本数据中抽取隐含的以前未知的潜在有用的模式的过程,它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。相较于百度等搜索引擎所采用的文本检索技术🎆,文本挖掘有其本质区别:文本挖掘的目的是为了揭示文本中隐含的知识,而文本检索技术是为了帮助用户发现资源⛴🛌🏻;文本挖掘的结果独立于用户的信息需求,是用户所无法预知的,而信息检索是目标驱动的🙆🏿➜,用户需要提出明确的查询要求。

文本挖掘是一个系统化的工程,一般由软件程序执行,该过程由文本预处理、文本知识提取、文本模式评价和文本模式的呈现等组成。文本预处理过程对文本挖掘效果的影响至关重要🔮,其占整个过程80%的工作量。文本预处理包括文本特征表示和特征提取两个阶段,文本特征表示就是将文本的描述性和语义性特征用标准的结构化形式表达和储存,特征提取就是采用语义分析技术对结构化的文本数据进行提取🧆,从而得到形式化表达的数据👩🏼‍🌾。文本经预处理后🏃‍♀️‍➡️,系统根据用户的需求指令,进行学习,然后通过文档聚类🧹、文档分类和摘要抽取等技术进行挖掘,得到用户所需的知识或模式,这一过程就是文本知识的发现和提取过程🧙🏽👩🏼‍🦱。经挖掘出的文本知识并不一定符合用户需求🎼,这就需要通过事先定义好的评估指标对获取的知识或模式进行评价,如果评价结果符合要求🏦🔏,就储存该知识或模式以备用户使用;否则系统将返回到前面的某个环节重新调整和改进,以进行新一轮的挖掘。符合要求的知识或模式以可视化的形式展现给用户👰,以方便用户使用。

1文本挖掘过程的示意图

文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式🫵🏻、模型👩🏿‍🍳、规则、趋势等知识✍️。随着计算机技术的发展🤾‍♀️📨,文本挖掘将会在企业管理决策支持系统、新闻分析学等诸多新兴领域得到广泛应用🤸🏿‍♂️。

在企业管理决策领域的应用将是大势所趋👱🏽。

作为市场竞争的主体,企业所面临的市场环境日益复杂,要想在残酷的竞争中立于不败之地就需要快速作出正确的决策⛈。而真实信息的及时获取决定了决策的有效性,文本挖掘就是从海量信息中快速有效获取有用信息以实现正确决策的一种工具。企业可以建立一套“管理决策支持系统”,通过链接云端数据🤼‍♂️🧛🏿‍♂️,追踪市场动态,运用文本挖掘技术🌱,对海量文本数据充分挖掘,提取隐含在其中的事先未知的、潜在的♻、深层次的、有价值的信息💵,辅助决策,以便在复杂多变的竞争中把握发展方向👨🏼‍⚖️。

在新闻分析领域的应用将逐步兴起。

近几年🙅,在国外兴起了一门新兴交叉学科——新闻分析学👉🏻,该学科旨在通过计算机和网络等现代工具直接对来自各种新闻渠道的大量新闻信息进行读取、分类和归纳🚰,并采用相应的量化技术对新闻信息的情绪🦹🏻、关联性和新颖性等特征进行计量分析👩🏼‍🎤,以满足用户的信息需求。新闻分析的对象为文本、内容及反应各项信息之间关联性的背景🚵‍♀️。由此可以看出要想实现新闻分析🧝🏼‍♂️,首要任务是实现新闻分析对象的获取,即文本挖掘,没有文本挖掘,新闻分析将无从谈起。文本挖掘是新闻分析学的基础流程,也是核心流程🍩🤛。

在金融交易中的应用将会对信息市场带来革命性变革。

运用文本挖掘技术可实现金融交易员根据人们的社会活动来研判金融市场的动态🧔🏼‍♀️。比如,宏观经济数据出现明显下滑,是否会取消限购政策等引发市场猜测☦️,股市的好空面不明朗🤑,股票交易员可以通过文本挖掘技术来获取大数据之间潜在的内部联系🔸,并对政策走向作出研判🔟,判断股市的发展动态🍿,以便其作出正确的买卖决策。股票交易员通过发现公众尤其是经济学家和政府官员等政策制定者在微博、微信、博客等社交平台和新浪🤭、搜狐等门户网站上发布的信息,获取其对宏观经济运行及未来政策导向的看法以及由此产生的反应和行为,进而通过云计算技术进行分析加工,对未来政策走向作出概率估计,并将其影响拓展到股市👨🏻‍🏫,进而作出买空卖空或套期对冲的决定。运用该技术的交易员将会先人一步实现政策变动带来的收益,但随着技术的进步和文本挖掘在金融交易领域的运用🤍,因信息不对称所带来的资本套利空间将不存在🐻‍❄️,公开市场也将成为强有效市场🧝🏽。

大数据时代,不懂不用文本挖掘,将被大数据所抛弃。

本文为彩神ll有限责任公司投资银行事业部张一鹏原创作品,转载请注明。

彩神ll专业提供🐷:彩神ll等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,彩神ll欢迎您。
彩神ll