2.4.1 机器学习
1)TensorFlow:TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现,其前身是谷歌的神经网络算法库,其拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,广泛应用于谷歌内部的产品开发和各领域的科学研究。
2)Adaptive Boosting:Boosting也称为增强学习或提升法,能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,为学习算法的设计提供了一种有效的新思路和新方法。作为一种元算法框架,Boosting几乎可以应用于所有目前流行的机器学习算法以进一步加强原算法的预测精度,应用十分广泛,产生了极大的影响。
2.4.2 知识图谱
1)Knowledge Graph:本项目通过该技术基于画像分析、知识图谱挖掘技术,通过疫情大数据实时采集、知识关联、融合分析,能够挖掘疫情新闻关系,高效分析人群流动方向和地点、挖掘可疑病毒携带者的行动轨迹、及时发现“高危群体”和“超级传播源”,帮助防控部门准确识别各阶段需要重点关注的关键节点(如重点防控区域),并能够生成内容丰富的可视化分析报告,支撑各疫情防控工作的跨域跨部门协同。
2)Neo4j:Neo4j是一个高性能的,NoSQL图形数据库,面向网络的数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。
2.4.3 自然语言处理
文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。
2.4.4 分布式爬虫
SCARPY是适用于Python的一个快速、高层次的Web抓取框架,用于抓取站点并从页面中提取结构化的数据。SCARPY用途广泛,可以用于数据挖掘、监测和自动化测试。提供了多种类型爬虫的基类,如Base-Spider、Sitemap爬虫等。
2.4.5 生态可视化
系统采用基于node.js的前后端分离技术架构,前端技术运行了渐进式框架Vue构建出生态,结合Node.js、页面渲染上采用Echarts,ArcGIS、CesiumAPI实现海量数据空间可视化,对病例数据进行相应整合,通过加载不同地图数据源实现不同展示方式,包含点上图、线渲染、面渲染,实现在一张图上的基本工具操作,热力渲染,图层分布实现图表分析,疫情数据的柱状分布图、曲线分布、曲线势态分布分析。
(图2-4 前端生态架构)
其中基础框架采用Vue.js, Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,方便与第三方库或既有系统整合。结合node.js 启动http服务,前后端分离开发,通过npm包管理,处理JS依赖问题。通过Webpack + VUE-loader,处理前端资源打包,使用iView,基于Vue的前端UI框架,使用ArcGIS API 以及Cesium JS进行前端可视化渲染展示,并结合babel,进行Java代码转换。