【重!磅!干!货
副标题[/!--empirenews.page--]
一、 功能概述 ? ? ? ?关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文本分析系统,该系统主要实现了以下功能:
? ? ??其中,关键词词频统计功能是: 对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内,计算每周的平均词频占比, 同时给出该词频占比时间序列与股价之间的相关系数。 ? ? ? ?关键词网络图的功能是: 对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5 个二级词,组成关键词网络图。 二、功能模块
1) 爬虫模块 2) 检索模块 ? ? ? ?检索模块的主要作用在于以 Lucene 为架构, 将爬虫模块爬到的文本数据加入到全文索引当中, 在建立索引的过程中,系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。 另外, 索引采用增量的方式来建立,即每次只将最新爬的文本加入到搜索索引当中, 而对于三个数据源,系统分别建立了三个独立的索引。同时,在建立的索引的基础上, 检索模块还实现了基本的文本检索功能, 检索程序能够在一定的时间范围内对于检索给定关键词,并返回该关键词所在的存储文件的文件名,以及该关键词所在的“句子”,并将所有的检索结果输出到一个给定的文件中。 ? ? ? ?简而言之,检索模块提供了建立索引和文本搜索两个主要的功能,他们分别是: ▲IndexFiles_pylucene.py? ?增量建立索引 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |