大数据及其衍生技术在最近几年时间里成为了一门被市场和大众热烈追捧的“新概念”和“新课题”。

对于金融行业和金融研究领域,“大数据金融”仿佛成为了一门新兴学科,业界期望这样的“跨界整合”,会给金融行业和金融学术研究开创新纪元。

【大数据不是“门外的陌生人”】

其实,对于金融研究领域的从业者而言,大数据技术早就融入进了绝大部分研究者的日常工作当中。

如果只停留在对大数据字面意义的理解来分类,所有的金融实证研究例如应用型金融资产定价、市场微观结构等,早在三四十年前就引入了对海量数据的统计分析技术。

最著名的案例包括尤金·法玛和肯尼斯·弗伦奇教授在上世纪九十年代初期,一系列关于市场风险溢价因子的研究论文。

后来对于资产组合管理理论以及具有里程碑意义的三因子理论模型的提出,都是基于对美国和当时全球主要发达国家的证券市场过去几十年的交易数据深度统计研究的结果上获得的。

传统的大数据应用对于金融理论研究领域来讲,其实并不属于门外的陌生人。

但是如果我们只着重拓展传统意义的大数据在金融上的应有,就会制约和束缚金融研究的创新和发展。

大多数人对于大数据的理解停留在了它是“海量数据”这么一种直观感性的认识基础上。

如果从事金融研究的专家学者,把思维桎梏在了这一狭隘的眼界上,那么他所做的研究则会在创新的道路上越走越窄。

大数据的概念,并不能仅仅局限在突出数据的“多且海量”这一个方面的特征,其实它也需要囊括对数据“新且多元”的这么一层深刻理解。

针对金融行业以及金融研究领域的大数据应用上,更应该强调它“新且多元”的一面。

过往我们所熟悉的金融研究文献,它需要搜集采纳的数据一般就是金融资产的市场交易数据。

但是现在越来越多的创新型金融研究理论和模型的研发,已经跳出了对传统交易数据的唯一路径依赖,而采用了多样化的数据来源和格式。

例如卫星影像数据、互联网搜索数据、人脸识别数据、图像声纹数据、媒体文本数据和社交通讯数据等。

“新且多元”的大数据,已经越来越明显地改变了金融行业的从业生态和重塑了金融研究的实践思维。

【“新且多元”的大数据】

金融场景结合“新且多元”的大数据实践应用,最具有幽默感的案例之一,

就是本世纪初几名美国有线电视新闻网(CNN)财经记者,对时任美联储主席格林斯潘的公文包厚度和联储加息相关性研究的分析报道。

他们发现了一个规律,但凡格林斯潘的公文包是鼓的,很厚,联储当日或者当季的加息决定可能性就很大,从而会影响一系列市场金融产品的价格和大盘走势。

这一指标,后来也被学界定义为“格林斯潘公文包”指标。

它突破了当时研究美国股票市场溢价因子和利率市场期限结构对传统数据源的依赖思维,而且研究成果也具备相当的说服力和显著性。

“新且多元”的大数据,目前不仅仅成为了金融研究理论突破的重要资源,对于不同场景中的金融实践,也开始慢慢承担起了商业战略决策不可或缺的论证依据。

美国华尔街日报在2014年的一篇报道中介绍了一家高科技数据分析公司,该公司专门向金融市场和机构提供各种各样的另类数据和分析报告,并帮助用户通过这些报告在金融市场实践操作中获取了不菲的投资回报。

他们提供的数据和应用场景,包括通过商业卫星对地球测绘扫描的图像,获得零售业巨头沃尔玛实体店门口停车场占用率数据,并且将该数据时间序列化后比对过往沃尔玛公司的盈利情况,从而能主动预测下一季度沃尔玛公司的财务公告。同时他们建议投资者根据结论提前交易布局,获得盈利。

大数据对金融监管和风险防范的应用,也不断地刷新着人们思想创新意识的边界高度。

大数据征信技术就是当前在金融监管领域属于前瞻性的课题。

传统的征信模型往往依赖的数据源比较单一,除了个人在不同商业银行过往的贷款信用记录,就是一些水、电、煤气、网络或者手机的欠费记录。

这些数据不能完整地表现出企业或者个人的信用曲线,依据这些数据所做的征信结论,往往偏向事后风险管理,对事前、事中的风控指导意义并不是很大。

但是如果可以引进能从不同角度反应企业或者个人的“新且多元”的大数据,则能给整个征信工作带来全新的改变。

例如,很多征信模型开始引入社交软件的通讯数据,模型将根据用户平时社交聊天的关键词,来判断一个人对于诚信问题的态度,同时结合各种媒体过往的文本信息。

去系统性追溯被征信人过去是否在不同城市和地点有过信用污点的报道和司法纠纷,最后人脸数据和识别技术可以帮助金融机构科学地判断拟授信人和被征信人是否一致等。

这样大数据征信,不仅可以帮助金融监管机构动态地掌握被征信人实时信用状况,同时也把征信工作从事后风险管理,推向了事前、事中的风险预防,从而大幅度降低整体社会的金融风险。

【可预见问题和挑战】

我们有理由相信,将各类“新且多元”的大数据应用结合金融理论研究和实践的不同场景,他们会摩擦出各式各样的创意火花和成果。

但是在大数据技术和金融相结合的发展道路上,也存在一些可预见的问题和挑战。

从大数据金融应用实践的角度看,目前社会争论比集中的地方是关于大数据安全、个人信息保护、技术垄断和滥用等几个问题。

这几个问题本质根源,总结起来,是可以归纳为当前大数据行业高速变革的社会需求和针对大数据的立法司法工作进度不匹配的发展之间的矛盾。

对大数据垄断和滥用行为界定缺乏足够的法源法理依据,这部分的法律空白将会导致大数据寡头垄断以及竞争不充分等一系列后续发展问题。

但是反过来说,要是针对大数据行业发展的立法过于超前,也将会遏制该行业未来的创新能力。

所以这方面的挑战确实是摆在政府面前需要谨慎处理的难题。

另一方面的问题和挑战是关于大数据技术结合未来金融理论研究发展的路径选择。

这方面的问题,例如大数据的“数据格式”和处理该数据的统计模型存在一定的不匹配,以及对于数据应用的原理缺乏严谨科学的理论认证。

就像我们前面所说的,大数据目前能展现的格式多种多样,有传统的数字格式,也有图像格式、音频格式、文字格式等等。

但是目前的金融统计模型只能处理传统的以数字格式出现的数据。

研究界对于非数字格式出现的数据,缺乏一种科学的处理方案,最常用的手段就是把非数字格式的数据简单的数字化。

例如对互联网和媒体的关键词数据进行频率化处理,来表达一种“多或者少”以及“有或者无”的统计。

在这处理过程中,会出现数据的扭曲和失真问题,加上作者对数据的解读会具有一定任意性和误导,从而让整个研究的成果或多或少带有一定的偏向性。

当然出现这问题的关键在于目前主流的金融统计模型,还不具备处理表现格式多样化的大数据能力。

这方面基础研究的不足,已经制约了大数据在金融领域里面的实践应用。

今后我们要做的是对各类大数据“能不能用”、“为什么能用”、“如何应用”等问题作出系统性的解答,这样才能明确大数据和金融应用与理论探索的道路。