数据辅助

2024-06-06

数据辅助(精选九篇)

数据辅助 篇1

由于具有高的频谱利用率,良好的抗多径性能,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)已经受到越来越多的关注。目前该技术已经被广泛应用于数字音频广播(DAB)、地面数字视频传播(DVB-T)、地面综合服务传输(ISDB-T)、欧洲和日本数字广播系统中[1,2]。然而,OFDM的缺点也是相当明显的,作为一种多载波调制技术,并且子载波间保持正交,导致其对载波频率偏移要比单载波更为敏感,当系统中存在载波频偏时,OFDM系统性能会迅速恶化。因此,OFDM通信系统中的同步是一个非常关键的问题,包括载波同步、符号定时同步与采样频率同步。

针对OFDM同步问题,已有很多文献提出了单独或者联合同步算法[3,4,5,6,7,8]。Schmidl提出了一种经典的同步算法[3],该方法使用了两个训练符号,第一个训练符号的前后两部分相同,在符号定时同步中,通过对训练符号中两个相同部分进行相关处理,估计出符号定时偏移,在定时估计的基础上,利用训练符号中前后相同数据之间的相位估计出系统存在的频偏。第二个训练符号用来估计整数频偏,这种算法存在定时的平台现象。Minn和Park在文献[4-5]分别设计了新的训练符号,利用训练符号所具有的新特性提高符号定时估计精度。文献[6-7]设计出一个具有伪随机序列加权因子的同步训练符号,提高了符号同步估计精度以及频偏估计范围,文献[8]提出了一种基于循环前缀和虚载波的联合算法,能够实现符号同步与大范围的频偏估计。文献[9-10]使用一个训练符号实现了符号与载波的联合同步,性能较以前算法有所提高。

上述文献中的同步算法仅仅考虑了载波同步与符号同步,并未考虑采样频率同步,采样频率同步偏差也会破坏各个子载波之间的正交性,带来信噪比的损失。文献[11-13]提出了导频辅助的采样频率同步算法,这类算法利用在承载信息的OFDM符号中的多个子载波上插入导频,接收端在FFT变换后,利用这些导频数据的相位变化获得采样频率同步的偏差。导频辅助的算法简单,但需要插入导频,降低了信息的传输效率。文献[14]提出了面向判决的采样频率同步算法,利用判决后的各个子载波上的数据与FFT变换后的各个子载波数据进行比较,获得采样频率同步的偏差。这种方法不需要插入导频,传输效率高,但是要获得可靠的判决数据会有较长的时延,并且在低信噪比的条件下可能会存在差错传播。

本文在现有载波与符号联合同步算法的基础上,提出了一种载波、符号与采样频率同步的联合算法。首先完成载波与符号同步,然后利用符号同步算法中提取的符号定时标记,通过对接收端和发射端在相同时间内的采样点数之比进行采样频率同步。仿真结果表明,算法性能与统计时间长度和定时算法有关。此外该联合算法在时域完成,提高了同步速度。

1 OFDM信号模型

图1为OFDM系统框图,在发射端,经星座映射后的数据dk通过离散快速傅里叶反变换(IFFT)调制到N个并行的子载波上,加入循环前缀后经D/A转换为模拟信号,然后调制到频率为fc的载波上。在接收端,经过信道与噪声污染的信号与本地载波相乘变为基带信号y(t),经A/D转换变为数字信号,去除循环前缀后经快速傅里叶变换(FFT)得到星座映射数据d̂k。

在OFDM系统中,由于多普勒频移以及收发两端晶振不匹配而导致两端载波存在频差,需进行载波同步。为了去除循环前缀,找到正确的FFT起始位置,进行符号同步。为了使两端采样频率相同,需进行采样频率同步。

为了研究方便,假定信道为理想信道,且不考虑循环前缀的影响,则有

经A/D采样,去除循环前缀后的数据为

将r(n)进行傅里叶变换得到

式中:为载波频差,w(n)为零均值、方差N0、2的独立高斯白噪声,Ts为发端采样间隔,T̂s为收端采样间隔,T=NTs为符号长度,则

从式(4)可以看出,载波频偏Δfc与采样频率偏差都会带来信噪比的损失。

2 联合同步算法

在联合算法中,载波与符号同步采用现有算法,以Park在文献[5]提出的算法为例,在此算法基础上,增加采样频率同步功能,在时域同时实现三种同步。

2.1 Park算法

Park提出了一个具有共轭对称的训练符号,其形式为[5]

式中:CN/4与DN/4共轭对称。该训练符号可以通过在频域的偶子载波发送实伪随机码,奇子载波发送零来产生。Park给出的定时尺度函数为

式中:。

频偏估计类似Schmidl提出的算法,利用训练符号中前后两部分相同数据之间的相位估计出系统存在的频偏。

2.2 Park算法改进

Park所提出的同步算法由于循环前缀的影响,不仅在N/2点处会出现尖峰,而且在N/2-Ng(Ng为循环前缀长度)处也会出现尖峰,影响符号同步性能,当Ng等于N/4时,加入循环前缀后的时域训练序列为

图2给出了Park算法定时尺度的仿真图,子载波数N=512,循环前缀Ng=128,从图中可以看出,当Ng等于N/4时,由于循环前缀的影响,出现两个尖峰,并且幅度相当,这样将无法实现正确的定时。Minn在文献[4]中提出的算法也存在该问题。

针对这一现象,结合文献[15]提出的基于循环前缀算法,本文对Park算法进行改进,文献[15]算法的定时尺度函数为

式中:,r(k)为接收信号,L为循环前缀长度,N为子载波个数,ρ=SNR/(SNR+1)。

Park改进算法首先根据式(9)确定符号定时标记的大致位置,消除图2中双峰带来的符号定时模糊现象,然后采用Park算法,由于Park算法的定时尺度在N/2点处为单峰,所以定时精度很高。此外采用基于循环前缀算法辅助,不需要传输额外的信息,不会降低系统传输效率。

2.3 采样频率同步算法

当收发两端采样频率不一致时,这时接收端采样间隔得到的样值与实际发送端的样值之间就存在一个小的偏差,这种小的偏差累计到一定程度就会多出一个样值(ΔTs<0)或者遗漏一个样值(ΔTs>0),如图3所示。

分析图2与图3可知,若接收端采样间隔仍为Ts,则图2中两个峰值之间的采样点数为(N+Ng)M个,M为一帧中包含的OFDM符号个数。当ΔTs<0时,两个峰值之间的采样点将多于(N+Ng)M,当ΔTs>0时,之间的采样点将少于(N+Ng)M。根据这一特性,可以利用符号同步提取出的定时标记进行采样时钟频率同步。具体为统计接收端L个OFDM帧内采样点个数Nr,同时计算出发射端L个OFDM帧内采样点个数Nt=(N+Ng)M⋅L。则

2.4 联合同步算法

结合Park算法与式(10),可以得到本文提出的联合同步算法框图如图4所示。首先按照式(7)计算定时尺度函数,找到峰值作为定时标记,该定时标记直接送去循环前缀模块,完成符号同步。以此标记为开始,统计L个OFDM帧内采样点个数Nr,再利用式(10)计算出ΔTs,将其转换为频率控制字调整A/D采样时钟,利用训练符号中前后两部分相同数据之间的相位估计出系统存在的频偏Δfc,调整本地载波频率。

联合算法中充分利用了符号同步中提取的定时标记,只在原有算法的基础上增加少量运算即可以同时实现三种同步,不需要附加导频等其他信息。

3 仿真分析

为了衡量所提出算法的性能,采用Matlab进行了仿真,对采样频率同步性能采用均方误差(MSE)来衡量。仿真中子载波数N=256,循环前缀Ng=64,帧长度M=2(其中,第一个OFDM符号为训练符号,第二个为数据符号)。考虑到采样频率误差主要是由于收发两端晶振不匹配所引起,不会太大,故归一化定时误差每次在[-0.001,0.001]之间随机选取,仿真500次。信道为加性高斯白噪声信道。

图5给出了不同统计长度下采样频率估计的MSE曲线,可以看出,估计性能与统计长度L有关,这一结论通过分析式(9)也可以得到。图6给出了基于两种不同定时算法采样频率估计的MSE曲线,可以看出,所提出的采样频率估计算法与符号同步算法有关,基于Park定时算法要好于基于Minn定时算法。此外,由于所提出的采样频率同步算法与所选符号同步算法有关,所以其对信道适应能力也取决于所选符号同步算法。

4 小结

本文针对Park算法中会出现定时模糊的现象,提出了相应的改进算法。在此基础上,提出了一种数据辅助的联合同步算法,可同时实现载波同步、符号定时同步以及采样频率同步。该算法只是在原有算法的基础上增加少量运算即可实现采样频率同步,不需要额外增加导频等信息,算法简单,实用性强。此外,按照提出的采样频率同步算法思路,也可以对非数据辅助的联合同步算法进行改进,在时域同时实现载波、符号与采样频率同步。

摘要:提出了一种数据辅助的载波、符号与采样频率同步的联合算法。首先完成载波与符号同步,然后利用符号同步算法中提取的定时标记,在接收端统计L个符号内的采样点数,与发射端L个符号内采样点数相比进行采样频率同步。仿真结果表明,算法性能与统计时间长度及定时算法有关。此外算法在时域完成,提高了同步速度。

利用数据仓库技术辅助CRM决策 篇2

CRM作为一种商业智能系统,能够从企业客户数据库中获得数据,结合其他部门的业务数据库,利用数据仓库对客户数据进行.7P,即客户概况分析;客户忠诚度分析;客户利润分析;客户性能分析;客户未来分析;客户产品分析;客户促销分析,锁定目标客户群,并通过一定的OLAP方法和适当的数据挖掘策略来发现众多数据背后的规律与联系,为企业的行销提供及时、准确、有价值的分析结果;为企业留住有价值的客户,开展高效的促销活动提供帮助;为企业赢得客户,赢得市场,CRM系统能够从大量的信息中找到对企业有价值的知识,依靠的是数据仓库、OLAP和数据挖掘等计算机技术,其中数据仓库是CRM的灵魂,CRM的很多工作都是以数据仓库为基础展开的。下面我们就来讨论一下如何利用CRM系统中所使用的数据仓库技术辅助企业做出决策。

一、数据仓库技术

数据仓库是支持管理决策过程的、面向主题的、集成的、动态的、连续的数据集合,对企业经营管理决策具有强大的支持和推动作用,特别是对数据密集型的企业更为有效。它以改进后的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,通过人工智能、神经网络、知识推理等数据挖掘方法来发现数据背后的隐藏的规律,为企业提供各种层次的决策信息。根据美国META集团的调查,数据仓库技术在美国金融业、制造业、商贸业以及社会服务等方面都得到广泛的应用,已经采用数据仓库的企业的投资回报率均在40%以上,部分企业高达每年600%。

二、应用数据仓库技术辅助决策

数据仓库技术是商业智能管理的重要基础和手段,已经成为企业级信息管理和决策支持系统建设过程中必要的技术支持。下面从两方面分析它的应用:

1. 数据仓库在CRM系统结构中的应用

CRM系统由业务数据库系统、决策支持系统等部分构成,

决策支持系统即DSS由三个层次的内容组成:数据仓库、联机分析处理和数据挖掘。他们之间的关系可以从CRM系统的数据处理循环过程图)中看出。决策支持系统是整个CRM的核心部分,而数据仓库技术又是支撑DDS的核心技术。下面通过CRM系统的数据处理循环过程中的各个部分来分析。[next]

图1 CRM系统的数据处理过程循环图

①原始的数据进入业务数据库

数据仓库是企业CRM系统成功开发和使用的建设基础。原始数据一部分来自现有的管理信息系统,即内部数据源;另一部分来自企业的专门调查或来自相关部门的统计信息,即外部数据源,而且由于趋势分析的需要,数据源还要能够提供历史数据信息。

②数据的整合存储

对业务数据库的数据经过接收、分析、抽取、净化、汇总、变换、存储等之后,为了得到数据仓库的数据存储,首先要确定数据仓库的分析主体和指标体系,再从源数据库中分析抽取面向主题的集成数据。以该主题数据作为分析型应用的数据基础,可以大大的缩短系统的响应时间,并能很好的满足相应主体的分析要求。这样原先存放在多个业务系统中的反映企业局部情况的数据经过整理后转换成反应企业整体情况的信息,这样就完成了从“数据→信息”的转变。

③结合OLAP和数据挖掘技术细化分析结果

数据辅助 篇3

一、开发轴类零件计算机辅助工艺的数据库管理系统的主要目的

1.通过增加回转类零件的型面种类,以满足不同结构的回转类零件的计算机辅助设计。

2.分别在CAD系统和CAPP系统中,建立零件几何信息数据库和工艺信息数据库,为实现CAD/CAPP的集成创造条件。

3.根据CAD系统中设计的零件图形所提供的几何信息、工艺信息和表头信息等,在CAPP系统中生成与该零件相对应的工艺流程和工序文件。

4.通过专家系统中的人工智能(Artificial Intelligence)简称Al技术,建立独立于应用程序的工艺规程及工序设计的知识库,实现回转类零件的工艺规程及工序设计的自动创成,即实现了CAD/I-CAPP系统的集成。

二、系统的主要功能

1.零件的信息输入模块:为系统提供一个交互输入、编辑和维护零件诸如型面的几何参数、部分工艺参数、表头信息的窗口。

2.参数化绘图模块:建立构成零件几何形状的各种型面特征的参数化模型。构建参数化图形的拼接机制,实现型面图形的自动绘制以及零件图形的生成。

3.知识库管理模块:实现工艺知识的输入、工艺知识的标准化和规范化,提供知识库的规则以及典型加工工艺小规程的输入、修改和维护等操作。

4.毛坯选择模块:选择毛坯的类型、材料类型、批量、毛坯预处理方法等。

5.工艺规程决策模块:利用知识库中的知识和零件几何信息和工艺信息生成主工艺流程。

三、系统结构设计

在CAD模块中,输入型面特征的几何信息与工艺信息,同时通过接口程序生成并提供系统的各种数据文件,使CAD模块能方便地获取零件型面特征的几何信息和工艺信息,并实现图形的快速绘制。

在I-CAPP模块中,完成管理信息和工艺信息的输入,生成零件的准加工链和符合零件要求的主工艺规程。这样,设计的系统结构框图如图1所示。

通过以上分析,可以得出轴类零件计算机辅助工艺设计的数据库管理系统的结构组成框图,如图2所示。

四、系统实现

1.零件信息输入模块的实现

(1)基于特征的零件信息描述和特征分类。本文采用基于形状特征的描述与输入法,特征主要从形状特征、材料特征、精度特征、技术特征和管理特征等方面进行分类。

(2)零件信息的内容。零件的几何信息亦即零件的图形信息包括零件的几何形状、尺寸等;工艺信息,包括零件各个表面的精度等级、粗糙度、热处理要求、材料和毛坯类型等多种信息。

{3)主要数据表结构。本论文建立了系统所需的零件表头信息数据表和零件主要特征型面的数据表,主要用来存贮零件的几何信息和工艺信息。同时,按照系统信息描述的要求,规定了信息输入步骤,并在Visual BASIC6.0环境中进行了零件信息输入界面的设计。

2.CAD参数化绘图的实现

(1)轴类零件的CAD绘图。轴类零件的参数化绘图使用了分型面特征要素的方法,采用了ActiveX技术,通过变量声明、VB和AutoCAD的连接和图形参数化程序的编写,实现了在AutoCAD2000开发平台下图形的参数化绘制。

(2)参数化图素拼装的工作过程。将复杂的零件可能具有的结构定义为相应的形状特征。然后用户以交互式的方式输入各个特征的参数,再调入程序生成相应的形状特征,最后将若干形状特征拼装为零件图;在图素拼装上,每个图素的拼装都根据上一图素的右边的中点作为插入基点,并通过数学运算及绘图命令的结合来完成图素的插入,同时将下一个图素的插入基点计算并作为下一图素的插入提供基点;按照从左到右顺序绘制零件图时,自动生成每个型面特征图素编号。

(3)数据获取。本系统从CAD参数化绘图模块中获取的数据,包括各个特征型面的几何参数(直径、长度等)和少量的工艺参数(表面粗糙度、尺寸精度和热处理要求等),按图元要素进行分类,以陈述的形式存储在分别以“特征型面+temp-+轴段序号”命名的txt类型文件中。I-CAPP系统可以方便地从以“特征型面+temp-+轴段序号”命名的txt类型文件中获取数据。

3.知识库管理模块的实现

知识库是用来存放工艺设计所需的各种规则的数据库,由于本系统要将人工智能中的专家系统技术引入到零件的工艺设计中来,因此,需要建立工艺知识库。

本系统利用数据库技术将知识库与数据库结合,构造成知识数据库。知识数据库中不仅存放事实,而且还存放规则,事实和规则通过推理又可获得新的信息即虚数据。对虚数据进行推理分析后也最终提供给知识库。另外系统还可以将工艺实践经验以产生式规则纳入知识库中,成为系统推理的依据,使系统实用性更强。

知识数据库的管理方式是:首先通过VB中的可视化数据管理器直接管理知识库,然后通过ActiveX数据对象的ADO接口访问Mi-crosoft Access数据库。

本文还设计了知识库的表结构和知识库的输入界面,构建了内孔加工方法的知识库、毛坯选择知识库等。

4.毛坯选择模块的实现

毛坯选择模块主要是用来对毛坯的类型、材料类型、批量、毛坯预处理方法等进行选择,本文对毛坯选择的知识库也进行了设计,采用IF—THEN—结构实现对毛坯的选择。

5.工艺流程决策模块的实现

本系统运用专家系统的反向推理策略来实现轴类零件加工工艺流程的自动创成。它是从用户或系统提供的假设和结论出发,从知识库中搜索出与知识数据库一致的事实的方法,即从零件加工的最终状态开始,逐步选择合适的加工方法,直至得出无需加工的毛坯状态为止。从而确定加工计划。

推理机的具体工作是:根据用户绘出的零件图形的设计要求,选用适当的规则,确定出能满足零件要求的最终加工方法和工艺参数,将已确定了的本工序的工艺参数存入到相关的动态数据库中,以本工序的尺寸精度和加工余量等工艺参数为基础,确定前一道工序的加工方法、尺寸、加工余量等工艺参数。以此作为新的要求,如此循环反复,直到确定第一道工序乃至毛坯的类型为止,这样就确定了零件的主工艺流程。

辅助决策实施中的数据集成 篇4

企业信息化是一个伴随企业发展与管理变革的过程。在其实施过程中, 企业内部管理需求是不断变化的;信息化建设初期往往缺乏比较严谨的总体规划;并且信息技术日新月异, 开发手段出不穷。结果是企业各信息系统之间不能协同工作, 不能有效组织和利用企业的信息资源, 导致企业信息化处于一种尴尬的局面。主要体现在:

数据信息的共享不够。各个部门的信息系统积累了大量的基础数据。但是, 由于建设时采用的技术不同、部门之间的业务范畴不同, 造成数据以部门为界限分离存储, 数据资源难于被访问。

现有网络资源的利用不够。本企业已经建立了光纤局域网并连接到互联网, 能够做到数据的快速、实时交换。但由于本企业的总部、下属各子公司之间存在的职能上的界限以及信息格式的差异, 信息系统不能形成数据的充分共享, 形成了信息孤岛。

信息化应用水平低。信息化建设基本停留在对现有管理和业务的模仿和简单计算上, 多数系统基本上是基础数据的录入和管理。数据中蕴藏着的巨大信息资源, 尚没有充分挖掘出来加以利用, 信息资源的增值作用还没有在生产经营过程中充分发挥出来。

因此, 急需把这些孤立的以不同方式存储的数据集成起来, 建立数据仓库, 以达到信息及应用的共享。进而实施辅助决策系统, 为企业的决策层提供全面、及时、准确的分析和预测。

2 数据集成的作用及过程

2.1 实施辅助决策面对的问题

在信息化建设过程中, 受具体业务要求、技术性以及人为因素等因素影响, 在系统运行过程中积累了大量采用不同存储方式的业务数据。主要表现在:

异构性:数据库服务器采用的操作系统、数据库管理系统存在差异。

性能要求:各信息系统经过多年运行, 积累了大量的数据, 数据量都在百万条以上。采用传统的数据操作语句导入数据仓库需要耗费相当长的时间和相当大的带宽, 无法保证辅助决策系统的实施性。

语义不一致:各项应用都是基于自身的应用数据库, 各类数据以应用为需求独立运行, 使得各应用数据库之间没有统一的数据标准、编码标准。

权限问题:数据库资源归属不同的部门, 需要在访问数据源数据基础上保障原有数据库的权限不被侵犯, 实现对原有数据源访问权限的隔离和控制。

内容限定:辅助决策系统并不是要重新开发一套大一统的信息系统。而是要在不影响现有系统正常运行的情况下, 将需要的数据整合起来放入数据仓库中去。这是辅助决策项目所要面临的核心问题。

2.2 数据集成的概念

数据集成是指将不同应用系统、不同数据形式, 在原应用系统不做任何改变的条件下, 进行数据采集、转换和存储的数据整合过程。其目的是运用一定的技术手段将各个独立系统中的数据按一定规则组织成为一个整体, 使得其他系统或者用户能够有效的对数据进行访问。数据集成是企业辅助决策解决方案中最普遍的一种形式。

2.3 数据集成的实施与作用

结合相关理论和本单位实施的实际, 笔者认为整个数据集成的过程分为:调研、制定方案、ETL开发三个阶段。

调研:在辅助决策项目前期调研的基础上, 考察每个系统的详细情况。

a.在了解辅助决策项目中的各类分析指标的基础上, 总结实现这些指标所需要的数据, 为后续调研提供目标依据。

b.根据总结的内容, 向业务人员了解所需数据在哪个业务系统中可以获得, 数据的可靠性能否得到保证。

c.根据用户提供的情况, 向各信息系统开发人员详细了解所需数据在数据库中的表结构、所涉及到的代码表;与分析指标相关的统计方法。复杂的统计方法要索要源程序进行详细分析。这是分析结果正确性的保证。

d.根据调研的结果和要实现的分析指标, 设计数据集成目标表的表结构, 也就是在数据仓库中的存储结构。

制定方案:本阶段的目的是针对前文提到的“实施辅助决策面对的问题”和调研阶段的结果, 制定出数据集成的实施方法。

a.将数据源的DBMS及其操作系统分类, 指定接口的驱动方案。现有的商用ETL工具一般都提供针对不同数据库、不同操作系统的连接方案。本身不需要项目实施人员进行程序开发, 只需要向ETL供应商了解相应的操作方法。

b.整理与项目相关的各个系统的代码表, 对于代码冲突的情况设计代码映射方案, 避免出现语义混乱。

c.确定数据库服务器的连接方式。针对用户职责身份制定完善的数据访问权限。针对无法进行直接连接数据库获取的数据, 制定数据交换方案, 并验证实际效果。

d.针对项目实施所涉及到的数据量比较庞大的特点, 确定数据抽取的方式、时间和频率。

ETL开发:本阶段是数据集成的核心阶段, 调研的结果将在这个阶段进行展示, 制定的方案将在此得到印证。详细的内容在后文中描述。

3 ETL开发

3.1 ETL的概念

ETL是指从关系型数据库、桌面文本文件、XML文件等数据源提取出数据 (Extract) , 将得到的数据转换为统一的格式 (Transform) , 最后将数据加载到目标数据存储区 (load) 的过程。

其功能包括:定义数据源;抽取数据;对抽取出的数据进行标准化、格式化, 然后集成到一个统一的数据模式中;基于数据库规则或者事务规则对集成的数据进行清理;将数据加载到数据仓库中。

现有的商用ETL工具, 如Informatic公司的Power Center, 都具备自动完成ETL的功能。因此数据集成的实施重点实质上就是在ETL工具内进行设置, 即ETL开发。这项工作是辅助决策建设过程中最复杂、费时的环节。

3.2 ETL开发

ETL开发一般分为三个方面:抽取设置、转换设置、加载设置。

抽取设置是指确定数据采集所涉及到的数据源及提取方式。通过不同的数据接口, 建立从不同的网络、操作平台、数据库及数据格式和应用到目标数据结构的连接桥梁。确定如何抽取并不件容易, 在实施中它需要经过以下的步骤:建立源数据系统的连接;从源数据库中提取出源表的列表, 确定提取的表;根据源表、提取规则利用图形化工具完成到目标数据结构的连接。转换设置包括清洗设置和转换设置功能。清洗即进行设置有效性规则, 对于数据项丢失、无效的记录和重复记录进行处理。数据转换则根据数据抽取时获取的元数据信息和目标数据仓库中表的元数据信息来对数据项进行转换, 包括数据的合并、汇总、过滤、转换等。转换功能保证了数据的正确性、一致性、完整性和可靠性, 为后续的工作提供了数据支持。ETL中最复杂的就是这个过程, 特别需要项目开发人员和原有业务系统的开发人员的紧密协作。

装载设置主要是指设置抽取、转换的时间段和频率。设置时间段的意义就在于, 将处理过程放在各应用系统运行的低潮期, 不仅减低带宽的影响, 而且数据的稳定性也有保障。频率设置的意义在于在这种实时性和资源开销之间做一个适当的平衡--既能在精度要求的前提下反映企业的生产情况又减少数据交换的次数。

可以相信, 经过数据集成后产生的数据构建起数据仓库进而实施决策分析, 能够使企业信息化达到一个新的高度, 能够使企业的经营有了可靠的依据, 能够让企业走上一个新台阶。

摘要:数据集成是辅助决策实施的基础, 为辅助决策提供统计分析的数据、素材, 是辅助决策系统之源。ETL在数据集成的重要组成部分, 是向辅助决策系统提供规范化的数据。通过该系统, 企业的管理人员可以直观的了解企业的经营情况。

关键词:辅助决策,数据集成,ETL

参考文献

[1]王宁.一个基于CORBA的异构数据源集成系统的设计[J].软件学报, 1998, 9 (5) :376-382.

[2]黄为民陈世福.分布式对象构件及其应用[J].计算机应用研究, .

[3]姜宁王忠等.空间对象模型用于Web下数据源集成的研究[J].计算机工程与应用.

[4]王宁王能斌.异构数据源集成系统查询分解和优化的实现[J].软件学报.

数据辅助 篇5

1 规范审校

就是把数据按规范统一起来。数据本身不一定有错误,表述不同计算机就会认为他们是错误。日常生活中,或者平日的资料里会对同一个事物或属性进行不同的描述。比如完井报告中描述试油结果是“工业油流”,也有的完井报告写“工业油层”。看报告的人会认为一个样,计算机就会认为不同,这就是说计算机中一个信息(数据)就是确定的数据,不允许不同或有二义性。比如:井号,有时会说“XX”,还会说“XX井”;斜井中大写的“X”与小写的“x”;地理位置中会出现“霸县”与“坝县”;“候”与“侯”;层位中会有“二”与“2”等等情况,不胜枚举。平时看到都会正确理解领会,在计算机中就成了两个截然不同的数据,查询时就会得出不同的结论,所以必须避免和排除。对待这类问题,我们创建了辅助数据表,枚举所有问题,临时出现的就及时增加进去,对新入库的每个字段都进行遍历,进行统一。比如搜索入库井号字段,把“坝”替换为“霸”;“X”替换为“x”;同样搜索其他可以归类出标准代码的字段,检查其内容是否被包含在代码表中,如果代码表中没有其内容则给出怀疑报告,提交人工处理。

2 单位统一校对

来自不同途径的数据其单位就有所不同,录入数据库中就要求单位统一。同一类数据单位不一致,在数据库中会表现出数值异常,据此可以提出疑问,提示校对者复查。比如:纸质资料中表述原油产量用单位“吨”,表述天然气产量常用“立方米”;数据库中统一到一个字段“油气产量”,其单位是“吨”,如果该井该字段是日产5000,那么就有可能是混淆了单位,很可能是5000立方米气,应当查看原资料落实。又比如:分析化验资料中渗透率的单位达西(mD),常常会因为渗透率的高低而使用达西或毫达西,出现异常高的渗透率就是异常的,应当再落实。套管尺寸、钻头直径等字段的单位是毫米,不能是英寸;温度是摄氏,不是华氏。尽管原始资料中单位各式各样,录入数据库中就要统一表达。

3 值域校对

就是校对取值在一定范围的数据,超出这个范围就是问题数据。比如井深,不会大于4位数,即几千米,目前还没有大于7000米的深井,那么就搜索大于7000米的井深,发现后则给出怀疑报告,提交人工处理。今后可能会出现更深的探井,届时再调整这个数值。又比如井位xy坐标,油田的探区相对固定,那么井位就不会超出探区的范围,也就是xy坐标有范围值,用计算机检索大于或小于其范围值的数据就是可疑数据,就要提交人工处理。钻头直径、井斜、方位角等等都有范围,超出这些范围就是疑点,就要提交人工查看、校验。

4 自我审校,内部统一

就是用数据的关联性相互比对发现矛盾。油气勘探数据中部分数据是相互制约,相互支持的,找出数据间的相互关系,用计算机查对这种关系从而发现不服从这种关系的数据。与纸质原件对照不一定能发现此类错误,因为原始资料本身就可能存在错误。比如:开钻日期<完钻日期<完井日期;又比如:钻头直径>套管直径;顶界深度<底界深度;补心海拔=地面海拔+补心距;地层厚度=底界深度-顶界深度;事故发生时间<事故解除时间,发挥计算机比对迅速的优势,很容易找出这类疑点,提交人工验证。

自我审校还包括同一库中不同表之间的数据对比,即钻井数据、录井数据、试油数据、测井数据各表中不能出现相互矛盾,通过左右互证发现谬误。

5 统计审校

就是利用不同资料来源的数据,对比其相同数据的和差,计算出的和差相同,那么大体上每个数也是一致的。和差不同时就对比上半部的和差,上半部数据和差相同,再对比下半部数据和差,用这种折半查找法找出不同的数据。此类方法的实施前提是同类资料收集到两套,且来源不同。来源一样的相当于一套,资料不同也失去对比的前提。比如:测井成果数据,收集到了表格版电子文档,又有录入数据库中的数据,则其中的井深、自然电位、声波时差、自然伽马等等都可以用此法对比。

6 计算机朗读辅助校对

就是计算机朗读数据库中的数据,校对人员看着原稿件逐一校对,主要任务是发现不同。平时都是把计算机中的数据打印出来,比照原稿一一校对,也有时用原稿和计算机显示器上的数据进行校对,这样校对人员很辛苦,不停地抬头、低头,还很容易看错行。计算机读出声音,校对人员边听边看原稿数据,可以根据原稿数据出现的顺序,设置成一条记录,一条记录的横着念,也可以设置成一列一列的竖着念。不易疲劳,减轻了工作强度,准确率也提高了。

7 成图后比对

就是将计算机中的数据画成图形和纸质图形比对,找出不同。油气勘探数据有许多是用来成图的,比如:综合录井图,测井曲线;井斜曲线等,用数据库中的数据直接成图再和纸质图形对照,很容易发现突出的异常点,发现异常点再读取相应的数据一一对照,就发现了问题。

总之,数据校对不是简单的劳动,“对”是要保持和原稿件数据一致,要求认真仔细,一丝不苟,“校”是发现原稿件中数据的错误,功夫在学识、心智。计算机程序只是辅助校对人员找出可疑之处,如何修改要依靠校对人员的学识水平和判断能力。

摘要:介绍了计算机辅助审校的7个方面,包括自动校对和协助校对的数据规范、单位统一、值域合理、内部一致、统计审核、语音朗读、成图对比。

数据辅助 篇6

在船舶机舱管理中,为了有效地解决对机舱设备的多方位监控,可通过手持的智能数据显示装置,实现对锅炉内压力、温度以及柴油机的最高爆发压力、排气温度等重要数据的实时监控。目前,国内船用温度监测与报警系统的不足之处有: 使用造价较高的有线传输,并且不便维护; 温度传感器安装比较固定,测量场合单一,导致了机舱的安全管理出现盲区。该设计从船舶机舱数据采集分析和传送入手,通过借鉴其他蓝牙产品和软件开发的设计,将数据采集装置、蓝牙等硬件和智能移动设备结合在一起,开发了一套基于智能移动设备通过蓝牙4. 0传输数据的机舱数据实时采集和数据分析的系统,以辅助对机舱主监控设备的监控,提高轮机管理人员对机舱的实时监控,最大限度地减少了机舱安全管理的盲区。

本研究对机舱监测设备系统功能和监控特点进行分析,开发一种基于小型移动设备的无线数据采集系统。

1数据采集辅助系统的整体结构设计

为了适应船舶海上行驶时面临的众多不确定因素,要求无线传输设备要具备稳定性高的特点。该设计的前端数据采集部分由位于现场的传感器、单片机、串口通信等构成,传送部分主要利用自带微带天线的蓝牙模块进行数据的无线传输; 末端通过蓝牙模块、串口通信传输将数据送到移动设备进一步处理。小型移动设备可以根据指令来控制数据的获取。该系统的结构框架如图1所示。

2测控硬件的设计

2. 1 数据采集系统

数据采集通常有两种,一种是从数据源收集、识别和选取数据的过程。另一种是数字化、电子扫描系统的记录过程以及内容和属性的编码过程[1,2]。该设计采用DS18B20数字温度传感器,该传感器响应快、抗干扰能力强、性价比高等优点。单总线串行接口,使系统变得简单快捷,具有超小的体积、极低的功耗[3]。该设计的一大亮点是机舱所布置的传感器安装方便,从而极大限度地减少了机舱管理的盲区。

2. 2 发送与接收模块的设计

该设计采用UART方式在蓝牙设备和移动设备之间传输数据。UART具有通信可靠的特点,这对于复杂的机舱环境是非常重要的; 由于本研究采用TI的CC2540作为核心处理器,使得RF-BM-S01蓝牙模块具有低功耗的的特点,2 MHz间隙能更好地防止相邻频道的干扰,宽输出功率调节( - 23 d Bm ~ 4 d Bm) ,- 93 d Bm高增益接收灵敏度。鉴于机舱环境恶劣及BLE特性特点,RF-BM-S01蓝牙模块首当其选。同时相对WIFI,Bluetooth 2. 0等无线技术,有着能耗低、连接迅速、通讯距离更远等优势。

RF-BM-S01低功耗蓝牙模块的引脚如图2所示,该设计中第1引脚即BRTS引脚( 作为数据发送请求( 用来唤醒模块) ,低电平时: 主机有数据发送,模块将等待接收来自主机的数据,此时模块不睡眠; 高电平时: 主机无数据发送,或主机数据发送完毕之后) 接单片机的中断INT0( 中断) ,3引脚即蓝牙的TX( 发送)接单片机的RX,4引脚即蓝牙模块的RX( 接收) 接单片机的TX,5引脚接地,6引脚接3. 3 V电源[4,5]。

3测控软件设计

主机与蓝牙模块用指令一一应答方式进行通信,当锅炉水温度发生变化时,温度传感器会感受到这种变化,并将物理信号转化为微弱的电信号并发送给单片机主控器,且当小型移动设备向蓝牙发送指令要求通信后,建立连接接收数据,否则等待; 主机控制器执行某一指令后,大多数情况下会返回给主机一个指令完成事件分组,该分组携带有指令完成的信息。单片机和蓝牙模块间通信的过程是通过键入HCI指令,观察收到的HCI事件。当两个蓝牙模块建立链路成功后,就可以按照蓝牙规范规定的HCI数据包格式收发数据[6,7],其结构流程如图3所示。

该设计的软件主要包括两部分: 数据采集和蓝牙通信,采用Keil C51设计软件,它是美国Keil Software公司出品的51系列兼容单片机C语言软件开发系统,与汇编相比,C语言在功能上、结构性、可读性、可维护性上有明显的优势,因而易学易用。Keil则为其提供了包括C编译器、宏汇编、连接器、库管理和一个功能强大的仿真调试器等在内的完整开发方案,通过一个集成开发环境( u Vision) 将这些部分组合在一起。运行Keil软件需要WIN98、NT、WIN2000、WINXP等操作系统[8,9],数据采集系统部分程序如下:

传输部分通信软件如下:

数据发送系统部分程序如下:

4实验结果与分析

计算机控制系统的硬件结构是大同小异的,但是不同的软件联结着不同的控制理论,体现着不同的控制特色。该系统要实现系统设计时制定的各项指标要求,设计了一套具有在线数据检测、采集,微机实时控制,数据显示、保存等多任务的软件包,具体有如下职能:

( 1) 水位动态显示。为了动态反映锅炉水位变化的特点,本研究在手机上用曲线图的形式来表现水位,并辅助曲线颜色的变化,使水位的波动规律与实际情况相一致。

( 2) 对锅炉汽水系统的检测监督。包括蒸汽压力、蒸汽流量、给水流量、汽包水位、蒸汽温度等。系统在正常工作状态时每间隔一小时记录一次采集数据,记录数据包括日期、时间、液位值,报警标识符等。

4. 1 移动设备的显示界面

成熟的蓝牙4. 0技术可保证数据传输的低误码率,数据的显示监控信号电平实时曲线、扫描信号的曲线都能实时显示在移动设备上这对掌握设备重要参数。实验得出的移动设备显示界面如图4所示。

该界面不仅显示了测控时的温度,还可以将历史数据及日期准确地保存在移动终端设备,以便管理人员查看。当待测数据变化较大时,会有铃声提醒并以折线图形式进行显示,便于对比,当待测数据超出设定范围时,同样会有手机铃声发出声音,以提醒机舱值班人员进行排除故障。此外,系统通过对手持移动设备的相关操作,可以使蓝牙模块处于随时打开、随时睡眠的工作模式,节省了模块的电量,设计的亮点还在于可以查看供给单片机和蓝牙模块的电量,以便对设备进行必要的维护与管理。该系统可以采集水位、蒸汽压力等信号,在手机上用数据和图形动态地表现参数的变化,还可以通过与上位机的通讯技术,实现在机舱集中监控台上实现对系统的控制,提高锅炉运行管理及故障处理能力。

4. 2 监测数据响应特性的实验及结果分析

对数据的采集分实时数据和历史数据两部分,历史数据就是故障类型以及故障发生的日期和时间。传送时用数据采集进度条显示过程,信号采集完毕,点击数据处理按钮,系统对接收的信号进行处理,包括对故障信号的分类,判别和最后入库。在研究本框里显示采集的数据情况,退出采集窗口则退回到实时数据传送的主界面。为了对数据监测系统的综合性能进行分析,本研究对数据监测系统的测试还分静态和动态两部分进行了测试。静态性能测试是测量的输出值与真实值之间的关系,动态测试测试连续变化的量。

根据上述数据特征,本研究进行了测试,试验方案为: 以待测锅炉水为试样,进行静态和动态对比试验,在测试过程中,使锅炉原有的监控系统和辅助系统同时工作,最后将结果以时间顺序列入表格中,并用曲线图的形式进行描述,得到的结果如图5所示。

在图5中,上部曲线为锅炉原有的监控系统所测得的温度数据,下部曲线为辅助系统所测得的温度数据,从该图形可以看出辅助系统所测温度较原有监控系统所测温度低,同时,两条曲线之间具有一定的误差,这种误差是由于该系统的数据传输,以及传感器的精度带来的,这证明该辅助数据采集装置完全符合实际的监测要求。同时,为了进一步提高数据采集与处理的效果,可以在硬件电路中采取防干扰措施进行优化。

5结束语

数据辅助 篇7

自2001年我国普通高校全面开始实施网上录取工作以来,高考录取工作已更加的公开、 透明, 同时各普通高校在完成录取工作时也更加的统一、 一致。 但录取工作所使用的 《全国普通高校招生网上录取系统院校系统》(简称全国网招系统) 软件, 仅提供了普通高校完成本、 专科招生网上录取的专业计划修改、 批量录入、 审阅考生电子档案、 自动或手动为各专业(院系 ) 分档 、 调整考生录取专业 、 填写退档原因等基本的数据处理工作, 而数据信息的统计、 分析、 通知书打印、 学生报到注册等功能却远不能满足高校实际招生工作需求。

招生管理作为高校教育管理的重要组成部分, 一直被高校管理人员所关注。 如今招生工的作业务范围不断扩大, 为提高工作效率, 满足工作需求, 招生辅助管理系统的管理模式和处理能力的改进越发显得重要。 招生辅助系统不能够仅仅停留在数据的录入、 存储及简单的统计分析和数 据报表 ,这只是将原有招生工作的手工操作处理转变为数字化处理的第一步。 随着高校招生数据量的逐渐增大, 招生管理与招生决策问题日益凸显, 如何利用海量的信息找出潜在的有利信息和生源信息, 为高校招生在生源质量、 宣传策略、 专业市场需求等决策性需求工作提供帮助。

2 基础理论及技术

数据库技术从早期的简单存储管理到根据用户需求进行管理, 由数据表格到海量存储, 已经形成了多种类型, 且应用广泛, 是目前系统开发及应用过程中必不可少的技术理论。自高校实施网上录取工作以来, 至今已逐渐积累了十几年的数据, 面对这样大量的数据, 采用数据仓库技术进行管理是很好的一种方法。 数据仓库能够支持高级语言编写 的程序 、操作系统脚本、 批处理命令脚本或SQL脚本等方式进行访问,特别是支持海量存储及快速检索。 同时数据仓库能够很好地服务于数据挖掘技术, 利于数据建立分析模型。

所谓数据挖掘, 就是将那些隐藏在数据中的、 不能先知以及包含潜在价值的大量信息, 从数据中提炼出来用于参考分析, 其目的就是确定数据的趋势和模式。 挖掘对象多为关系数据库、 数据仓库、 事务数据库、 对象-关系数据库、 空间数据库、 时间序列数据库、 文本数据库、 多媒体数据库、 一般文件、 数据流和万维网等。 数据挖掘具有两部分功能任务:一部分是描述性任务, 主要是描述数据库中数据的一 般性 ;另一部分是预测性任务, 主要是由数据进行推断做出 预测 。进行数据挖掘时一般是采用多种模式对统一数据进行 处理 ,挖掘模式类型主要有概念/类描述、 平凡模式、 关联和相关、分类预测、 聚类分析、 利群点分析、 演变分析等。 挖掘的一般流程如图1所示。

3 常用挖掘算法

3.1 关联规则挖掘

关联规则是数据挖掘主要的研究方向, 是目前采用最多的方法。 通过已给定支持度发现最大频繁项目集, 然后通过已给定的置信度, 在最大频繁项目集中生成置信度大于或等于给定置信度的关联规则。 经典的算法主要有Apriori算法和FP-growth算法 。

3.2 聚类分析挖掘

聚类分析是将物理的或者抽象的数据集划分成多个类别,每个类别中任意两个样本之间有着高度的相似度。 相似度可以根据样本的描述属性的具体取值来计算, 通常采用样本间的距离来表示。 常用的算法主要有k-means算法。

3.3 分类挖掘

分类方法是根据数据集特点构造分类器, 通过分类器将数据映射到给定类别中某一类的过程。 决策树是一种典型的分类方法, 是一种逐渐逼近离散函数值的方法。 主要被用来解决以离散型变量作为属性类型的问题, 利用归纳算法生成可读的规则和决策树, 然后使用决策树对新数据进行 分析 。最具代表性的决策树方法是ID3算法, C4.5算法是在ID3算法基础上的改进。

4 系统构成

系统主要由3个层次7个部分构成, 如图2所示。 3层分别为数据采集层、 信息处理层及应用分析层。 7个部分分别为接口管理、 信息处理、 计划管理、 招生录取、 报到注册、 决策分析及统计报表。

接口管理: 主要完成与全国网招系统数据的对接, 实现数据的有效收集和提取。 信息处理: 主要完成数据的整理、 分类, 为管理系统其他模块的需求实现数据的预处理。 计划管理主要完成高校拟定计划的编制工作, 及历年各专业计划的查询、 备份等功能。 招生录取: 主要完成全国网招系统的调用以及后续数据代码转换, 退档记录考生的查询, 考生照片、 体检表归类, 通知书排版、 打印等功能。 报到注册: 主要完成新生的报到注册、 实时统计、 宿舍分配、 班级分配等功能。 决策分析: 主要完成招生数据的汇总统计及挖掘分析功能。 报表统计: 主要完成系统所有数据报表分析结果的输出、 打印。

5 系统设计特点

5.1 采用 Client/Server 结构

考虑到全国网招系统院校版的设计特点, 为保证招生录取数据的安全, 同时有效地实现与全国网招系统对接, 因此采用C/S体系, 即客户机服务器结构。 这样能够充分利用网络降低设备的运行负荷, 使数据存储更清晰透明, 降低招生过程中硬件设备的使用成本, 最优化地共享了服务资源, 使得用户在操作时简捷方便。

5.2 贴合学校实际需求

该系统与学校招生实际工作紧密相连、 全面贴合, 根据业务需求规划功能, 按照学校全年招生录取工作业务流程及逻辑组织划分工作模块, 有效地提高了学校招生工作效率。

5.3 利用分析结果指导工作

系统采用多种数据挖掘算法, 通过对历年招生录取数据、报到数据等数据信息的统计、 挖掘分析发现学校招生工作中的不足、 缺点。 能够帮助学校针对分析结果后发现的问题提出改进方法, 为学校的宣传工作、 学生工作、 教学工作、 基础建设等方面提供科学、 合理的数据依据。

6 结语

目前该系统已投入使用, 从系统的整体运行情况看, 对学校招生所产生的数据实现了有效管理, 对录取数据的后续处理、 转换、 调整、 输出、 打印的速度显著提高, 对学校的招生咨询、 宣传、 生源质量、 计划调整及专业分布等工作提供了科学的分析数据, 能够客观、 真实地反映学校新生的整体状况, 使得学校的专业设置、 专业规划及分省分专业计划更科学合理。

高校招生数据信息存储量日益增大, 应用数据挖掘技术对学校招生数据信息进行管理分析管理, 能够快速获得有价值的参考信息帮助管理者进行决策, 这对高校的管理工作非常有利。 随着数据挖掘技术的不断进步, 利用数据挖掘技术的优势, 相信一定能够成为高校招生工作的得力助手。

摘要:针对现有网络招生系统对招生后继信息处理能力的不足,及高校招生数据信息存储量的日益增大,设计并实现了一个基于数据挖掘技术的招生辅助管理系统。该系统对学校招生所产生的数据实现了有效管理,贴合院校实际情况科学提供分析数据,帮助管理者进行决策,有效提高了招生录取工作效率。

数据辅助 篇8

大数据时代,数据即是财富、知识,但如何获取这些知识并运用于实际工作,却有很多研究工作要做。通过对笔者学校一卡通数据中心集成的数据进行挖掘,为贫困生认定提供一定的辅助功能。

1一卡通数据中心设计

一卡通系统数据中心管理平台应用范围覆盖整个校园,实现身份识别一卡通、校内消费一卡通、校务管理一卡通,通过平台标准的扩展接口实现与校园内的其它管理系统、办公自动化系统数据共享,为智慧校园建设打下基础。

2数据挖掘

数据挖掘就是从过去积累的大量数据中,利用各种分析方法与技术,获取有用的、用户感兴趣信息的过程[1]。

数据挖掘的跨行业标准过程(CRISP-DM)由欧洲几家数据挖掘公司提出。CRISP-DM模型认为完整的数据挖掘过程,是把对企业需求挖掘的理解,以及后期对模型的评价与模型的延伸应用都纳入到数据挖掘过程中来,而不仅仅是针对数据整理、数据显示、数据分析以及构建模型等理论建立过程,真正做到解决企业需求[2]。下面根据CRISP-DM定义的6个阶段阐述贫困生辅助认定系统设计。

2.1定义商业需求

此阶段的任务是:应用方和开发方确定双方需求,并将其转化为数据挖掘和软件开发需求,得出初步的设计和实现思路。

具体过程:从一卡通数据中心的数据中分析出贫困生的消费模式、学习模式和生活模式。经过初步分析,笔者认为,可以采用聚类分析和分类分析相结合的方式进行。 具体通过分析以下3个方面的数据,全面了解一个学生在校的经济情况。

(1)学生消费数据挖掘分析。通过对学生在食堂、超市消费情况进行分析,根据学生每学年在校就餐的次数以及平均消费金额,可以分析出该学生真实的经济条件。

(2)学生吃早餐数据挖掘分析。研究表明,学生是否吃早餐与学生成绩和上课出勤率(视为努力程度系数)存在一定的关系。可以根据学生是否吃早餐,以及早餐的消费金额分析,从侧面确定该学生的家庭经济条件以及学习模式。

(3)学生圈存数据分析。很多研究只注意了校园卡消费的一面,没有注意校园卡充值的一面,校园卡圈存的模式,反映了学生对于经济的态度和现状。

2.2数据理解

此阶段包括建立数据库与分析数据。笔者利用OR- CALE将一卡通数据中心的数据还原,还原后,建立相应的目标数据视图,利用数据挖掘技术,对相应的目标数据视图进行分析。

2.3数据预处理

此阶段和数据理解阶段为数据准备阶段的核心,其目的是把各种不同来源的数据加以清理、整理和归并,配合数据挖掘技术使用。

一卡通数据中心存在多种消费数据,如食堂消费数据、超市消费数据、购买热水、交纳电费、借书超时费、上机费用等等,而且数据库里还有教职工、临时卡以及校外读者等不同用户。因此,需要将消费数据和圈存数据整理, 清洗掉数据噪声。

注:此表中的数据仅为消费数据,包含了超市购物数据和食堂消费数据, 不包括上机数据、购买电费、购买开水等。同时,食堂对于菜品有3个层次划分,分别为高价、中价和经济型

以每天8:00以前的食堂消费定义为早餐时间,学生是否吃早餐数据可以从表1中获取。

2.4建立模型

此阶段对预处理过的数据应用各种数据挖掘技术,建立分析模型。数据挖掘方法一般有:关联分析、聚类、分类、预测、时序模式[3]。

本研究采取聚类和分类两种方法,并且相互比较和促进。聚类和分类算法是商业上用于客户分类中使用最多的算法。

分类可以表述为一种有监督的机器学习方法,通过对一部分样本进行训练,获取相关对象特征,达到“最小化类间相似性,最大化类内相似性”目的,然后将预判定数据分类,也算是一种预测模式[4]。

学校一卡通系统从2007年开始建设并投入使用,笔者从前8年的数据中,将消费模式利用支持向量机算法, 根据经济条件将学生分为5个层次,贫困、较差、中等、较好、优越5个级别。当进行贫困生判定的时候,工作人员将申请者的学号导入系统,系统可自动将申请人分类。

聚类分析的本质是利用物以类聚的原理,把特征相似的对象聚合在一起。聚类和分类不同之处是:聚类是无指导学习,聚类分析输入的是一组未分类记录,并且这些记录分成几类事先也不知道。聚类分析就是通过分析数据库中记录的数据,根据一定的分类规则,合理划分记录集合,确定每个记录所在类别。聚类分析属于一种判定模式的算法。聚类算法可以分为划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等[5]。

本研究中使用K-MEANS算法,根据设定的阈值,将学生分成上述5个级别。在需要对贫困生进行判定时,运行该系统,判断学生位于哪个级别,是否属于贫困生。

2.5评价与解释阶段

实际应用中,随着应用数据的不同,模型的准确率肯定会变化。所以,在这个阶段,开发者应该利用专业知识, 进一步验证数据和算法,并且最好赋予算法自我优化的功能。

本研究中,笔者采取两种不同方法中的经典算法,用于相互促进和验证。比如,利用分类和聚类得到的结果进行验证,找出其中的异同。将聚类获取的数据,求出算术平均值,然后以此为分类依据对数据分类,检验分类结果是否一致。

进一步,是否能通过遗传算法优化分类和聚类算法。 因为数据库的数据是不停增长的,如果分类或者聚类标准一成不变,将导致结果的误差。

2.6实施

一般而言,完成模型创建并不意味着项目结束。模型建立并经验证后,要提供给专业分析人员作参考或给非专业人员使用。

将算法优化并初步测试后,就可以编写进程序中,用户不是直接去执行算法而是应用系统。本研究中,笔者采用了VISUAL STUDIO 2010中C# 开发的Web应用。 该开发工具简单易用,开发高效。

参考文献

[1]张丽丽.数据挖掘技术在校园卡信息管理系统中的应用研究[J].中国管理信息化,2013,16(4):79-80.

[2]鲁钊.基于ID3算法的机械制造业决策应用[J].计算机应用,2011(11):3087-3090.

[3]习慧丹.数据挖掘研究综述[J].电脑与信息技术,2012(2):44-46.

[4]李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报,2011,28(4):44-47.

数据辅助 篇9

关键词:辅助教学,数据存储,磁盘管理

一、前言

随着计算机网络技术的发展, 数据存储技术成为了整个IT网络环境中的核心技术。数据存储是保证IT网络环境中的服务器、网络、操作系统、业务软件系统等正常运转的关键。以学生就业为导向的高职计算机网络专业的课程体系中都增加了《数据存储》课程。数据存储技术是一门实践性很强的学科, 需要通过大量的实训项目来验证和深化知识点。如何利用实训室设备和计算机辅助教学软件完成实训项目是我们每一位讲授该课程老师所要解决的难题。

二、VMware Workstation

1. VMware Workstation使用的必要性

VMware Workstation是一款功能非常强大的桌面虚拟计算机软件, 它是通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统[1]。在《数据存储》课程当中我们要对多块磁盘进行操作, 如果不用虚拟机则要对现有实训室设备进行扩容改造, 要根据需要添加、删除硬盘, 这对于机房的规范管理非常不利, 而且还容易对现有系统产生破坏。使用虚拟机所有操作都是在这个全新的独立的虚拟系统里面进行, 可以独立安装运行软件, 保存数据, 拥有自己的独立桌面, 不会对真正的系统产生任何影响, 而且具有能够在现有系统与虚拟镜像之间灵活切换的一类操作系统。

2. VMware Workstation下实现动态磁盘管理的方法

作为网络管理员, 日常工作中主要任务就是保证用户和应用程序有足够的磁盘空间保存和应用数据。在windows server2008中有两种磁盘格式, 一种是“基本磁盘”。基本磁盘非常常见, 我们平时使用的磁盘类型基本上都是“基本磁盘”。“基本磁盘”受26个英文字母的限制, 也就是说磁盘的盘符只能是26个英文字母中的一个。因为A、B已经被软驱占用, 实际上磁盘可用的盘符只有C~Z 24个。另外, 在“基本磁盘”上只能建立四个主分区 (注意是主分区, 而不是扩展分区) ;另一种磁盘类型是“动态磁盘”。“动态磁盘”的最大优点是可以将磁盘容量扩展到非邻近的磁盘空间[2]。

在教学中部署动态磁盘实训的第一个任务就是要学会如何在虚拟机中根据需要的数量添加硬盘。

首先, 我们在虚拟机中增加一块新硬盘, 如图所示。

安装新磁盘后, 必须经过初始化后才可以使用, 在“开始”菜单中选择“管理工具”—计算机管理—存储—磁盘管理, 右键单击磁盘1, 选择“联机”, 再次右击选择“初始化磁盘”, 弹出如下图所示对话框:

选择MBR或GPT分区形式, 单击确定按钮, 接着就可以在新磁盘内创建分区。

动态磁盘的管理是基于卷的管理。卷是由一个或多个磁盘上的可用空间组成的存储单元 (基本磁盘是用分区来分隔磁盘的) , 可以将存储单元也就是卷格式化为一种文件系统并分配驱动器号。动态磁盘上的卷包括简单卷、跨区卷、带区卷、镜像卷和RAID-5卷, 它们提供容错、提高磁盘利用率和访问效率的功能。

这里我们以RAID-5卷的实训为例来说明如何在VMware Workstation下实现动态磁盘管理的方法, RAID-5卷与带区卷有一点类似, 它也是将多个分别位于不同磁盘的未分配空间组成的一个逻辑卷, 也就是说可以从多个磁盘内分别选取未分配的空间, 并将其合并成为一个RAID-5卷, 然后赋予一个共同的驱动器号。

不过与带区卷区别是:RAID-5在存储数据时, 会另外根据数据的内容计算出其奇偶校验位, 并将奇偶校验数据一并写入到RAID-5卷内, 当某个磁盘引故障无法读取时, 系统可以利用奇偶校验数据推算出该故障磁盘内的数据, 让系统能够继续运行, 具备故障转移功能, 其特性:

*可以选择3~32个磁盘内的未分配空间组成RAID-5卷

*组成RAID-5卷的每一个成员的容量大小是相同的

*系统在存储数据到RAID-5的时候, 会将数据等量的64KB, 分别同时写入数据与其奇偶校验数据, 写完为止

*如果只有其中一块盘坏掉, 系统还是可以正常运行, 可以通过奇偶校验来恢复坏掉的数据, 但是如果坏了一块盘以上系统将无法继续运行

*写入效率一般来说会比镜像卷差 (视RAID-5磁盘成员的数量多少而异) , 不过读取会比镜像卷好, 如果其中一块盘坏了的话, 读写速度都会下降

*RAID-5卷的磁盘空间有效使用率为 (N-1) /N, N为磁盘的数目。

*RAID-5卷一旦被新建好, 就无法再被扩大.

*可以被格式成NTFS、FAT32或FAT格式

*整个RAID-5卷是被视为一体, 无法将其中某个成员单独使用, 除非先将整个RAID-5卷删除。

新建RAID-5卷

右击未分配空间中的任何一个选择“新建RAID-5卷”

出现欢迎“使用新建RAID-5卷向导”

分别从磁盘0、1、2选取8000MB的空间, 也就是说这个RAID-5卷的总容量为24GB, 不过因为需要三分之一的容量来存储奇偶校验数据, 所以实际的容量为16000MB, 完成单击下一步。

指定驱动号, 单击下一步

输入并选择适当的设置, 单击下一步, 然后单击完成就行了。

每个院校机房管理是不一样的, 机房的计算机配置也不尽相同, 一个机房可能是全校各个专业共用, 所以安装虚拟机来实现磁盘存储实训是最有效最可行的方法。

三、成果和效果

上述在教学中的一些经验已经应用在教学中, 并取得了很好的成效, 我们还在《数据存储》课程的教学过程中继续进行大胆的尝试和探索, 除了磁盘存储实训, 我们还可以在VMware Workstation下通过模拟多台互相独立的服务器来构建各种拓扑网络, 实现域的管理等实训内容。教学经验的总结和教学改革是我们每个高职教师永恒的课题, 从现有的环境尽可能的模拟学生的就业环境是非常重要的工作。

参考文献

[1]孔德军.利用VMware Workstation构建计算机虚拟网络实验平台[J].云南警官学院学报, 2013 (5)

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【数据辅助】相关文章:

实验辅助05-02

辅助生成05-03

辅助翻译05-11

辅助定位06-25

辅助训练06-26

辅助警察范文05-16

辅助器具评估04-24

语言辅助教案06-16

辅助动力装置05-03

品牌辅助图形05-10

上一篇:铁路旅客下一篇:数学教学中的核心素养