摘要:针对目前资本市场上快速挖掘某种主题概念股票的需求ꎬ提出了一种新思路ꎬ该思路以上市公司的核心题材、主营收 入和资本运作 3 项数据为基础ꎬ进行主题概念相关指数的分析和计算ꎬ最终以此指数作为标准推荐主题概念相关股票ꎬ并开 发了一套数据抓取程序和 Web 应用程序ꎮ 数据抓取程序利用定时组件 Quartz 从各大财经网站抓取全体上市公司已公开的各 类基本信息ꎬ存入分布式文件系统 HDFS 中ꎻWeb 应用程序接收用户输入的查询关键字组合ꎬ系统利用抓取的数据集从公司收 入、投资和核心概念 3 方面分析和计算出公司与用户需要查询的关键字组合的相关指数ꎬ最后汇总为总相关指数ꎬ总相关指 数越高的公司ꎬ其相关度越高ꎬ相关度越高的公司越有可能就是用户想要查找的相关主题概念公司ꎮ 通过这 3 方面的结合ꎬ在 公司的过去和未来ꎬ在定性和定量等多个方面都进行了相关度的挖掘ꎬ从而计算出来的相关性将更加可靠、准确ꎮ