切分技术

2024-05-22

切分技术(精选七篇)

切分技术 篇1

河北钢铁集团宣钢公司一小型车间主要生产Ф12、16mm小规格螺纹钢。2009年进行了由半连续轧制到18架轧机全连续轧制的技术改造, 随着生产线装备水平的提升, 2010年一小型车间进行了Ф12mm螺纹钢三切分轧制技术的开发, 并取得了成功, 产量及技术经济指标得到了明显提升。但根据市场情况, 宣钢调整了生产组织模式, 逐步加大Ф12mm小规格螺纹钢的产量, 为实现降低成本增加效益, 一小型车间充分利用自身人力和工艺设备资源, 在精轧机列全水平的条件下开发Ф12mm螺纹钢四切分轧制技术。

2 主要设备参数

1座推钢式端进侧出燃焦炉煤气加热炉, 加热能力140t/h (冷坯) 。轧线有18架连轧机组, 粗轧机列为4架580平立交替短应力轧机和2架450水平高刚度闭口轧机, 中轧机列为6架430水平高刚度闭口轧机, 精轧机列为6架320水平短应力轧机。冷床为81m×8.992m齿条步进式, 冷剪剪切能力为650t。

宣钢一小型车间生产线的工艺平面布置图如图1所示。

3 四切分轧制工艺设计开发

3.1 设计思路

充分利用现三切分轧制工艺设备, 在不增加大的设备改造投资费用前提下, 对轧线工艺、工艺辅助设施制定改造方案, 以实现最小的投资完成Ф12mm螺纹钢四切分技术的开发。

3.2 设计孔型系统

考虑轧线粗中轧Ф12、16mm规格孔型的共用和Ф12规格切分后精轧孔型不变, 此次Ф12规格螺纹钢四切分孔型主要设计11-16架, 甩掉12架次, 11架与13架采用平辊, 孔型形式14架次为立箱孔, 15架次为哑铃形, 16架次为切分孔, 15、16架孔型的设计主要是通过确定合理的孔型宽高比以实现四线孔型的面积精确控制, 四线金属流量分配均匀, 保证料型稳定。同时, 切分架次孔型的楔尖角圆弧半径选择合理, 可实现轧槽轧制吨位的提高, 减少因切分楔造成的切分导卫挂粘皮现象, 降低堆钢事故和成品质量缺陷。

(1) 11架次孔型为平辊。

(2) 13架次孔型为平辊。

(3) 14架次孔型为立箱孔, 根据13架次来料, 为保证料型控制的稳定和料型形状, 需对孔型槽底圆角、侧壁斜度和孔型槽底宽度进行合理设计。

(4) 15架次孔型为预切分孔、16架次孔型为切分孔。为实现料型的稳定控制, 需配套设计这2个孔型。根据三切分轧制经验, 15架次延伸系数设计为1.25-1.30, 16架次延伸系数设计为1.10-1.15。为保证四线差的调整方便, 15和16架次孔型的中孔面积为边孔面积的97%-98%。15架次孔型切分楔的设计不但要考虑自身磨损情况, 还需考虑对16架次孔型切分楔磨损的影响, 为杜绝因切分楔间距小、切分楔处压下系数大磨损严重而引发的一系列产品质量问题, 根据三切孔型设计经验, 15架次孔型切分楔间距设计为5.3mm, 楔角度设计为70°。16架次孔型主要是将15架次预切分料进行规整, 为将料型切开做准备。16架次孔型设计主要是考虑切分带厚度和切分楔角度。为防止轧制时切分带过厚, 设计时楔角半径应取较小值, 本次设计取值为0.75mm, 楔角为54°。

宣钢一小型车间四切分孔型如图2所示。

3.3 成品速度

Ф12规格三切分生产时, 成品速度最高可达到14m/s。设计四切分生产时的成品速度需考虑成品轧机的电机和减速机负荷、机时产量、轧机稳定性等因素。通过对现有轧机设备进行力能参数校核, 测算四切分时不同速度下各架次力能参数的变化, 与三切分时最高成品速度14m/s对比, 以确定四切分成品速度。

通过测算和比较, Ф12mm螺纹钢四切分轧制时最高速度确定为13m/s, 为保证生产的稳定性, 成品速度在开发生产时确定为12m/s。

3.4 配套导卫及在线活套设计

导卫系统由导卫包线厂家根据孔型设计图纸负责供货, 导卫形式仍采用原三线切分导卫系统。

根据四切分确定的中心距, 重新设计四线活套及成品轧机后过渡跑槽, 并对活套安装进行分体设计, 以提高12、16规格换品种时活套更换速度。

4 生产过程中存在的一些问题及改进措施

4.1 调整K1、K2时, 变形参数与速度的变化

K1即成品架次, 若其线速度、轧件高度h (或内径) 不变, 当我们调整K2时, 比如收料, 那K2的料型变宽、变薄, 翻转90°进入K1, 则相当于K1料轧前高度H增加, 宽度B减小, 根据公式μ=η/β, η=H/h, β=b/B计算可知, 轧件在K1 (成品料) 的延伸系数变小, 即成品面积减小, 由于内径没变, 则反映在纵肋的变化上, 即纵肋减小。此时K1速度不变, 连轧常数C1变小, 而K2收料后, 延伸系数增大, 面积减小, 连轧常数C2也变小, 但C1的变化量要小于C2的变化量。所以, K2需要提速来弥补这一差值。但是, K1来料的高度增加, 造成咬入角增大, 轧件头部咬入难度增加, 实际操作中, 可能会因为堆头而降低K2的速度, 加剧拉钢。

因此, K2料的宽度与厚度的比值应保持在2.2—2.5之间, 这个需要通过控制K3来料和K2辊缝来保证, 尽量偏下限。

4.2 成品头部带弯的原因

螺纹钢的成品孔型较为复杂, 轧件在轧制变形中既要逐步填满横肋, 还要通过过充满来形成纵肋, 变形复杂。概括的讲, 头部形成弯头是由于在轧制过程中, 轧件在上下孔型内变形速度不一致造成。具体原因有以下几点:

(1) 上下辊存在速度差。如上下万向轴间隙不一致、晃动, 上下辊辊径不一致, 上下孔型加工误差大。

(2) 横肋加工时, 上下孔型的横肋高度偏差过大, 造成单面脱槽困难。

(3) K2来料的形状尺寸或表面状态导致在成品孔变形速度差。当K2进口偏移时, K2料便会一边厚, 一边薄, 翻转90°进入成品孔后, 厚的一边延伸大, 另一边延伸小, 造成弯头。

(4) 进口、出口安装的高低。

(5) K2料头不规矩, 如斜边, 咬入成品孔时, 上下接触弧长不一致形成速度差。

5 四切分轧制的一些经验总结

(1) 成品料对中轧料的变化非常敏感, 要始终保持中轧最后一架的宽度和高度稳定, 减少拉钢。及时调整料型和导卫。

(2) 为减小换辊、换孔对轧制稳定的影响, 粗中轧同时换孔的数量尽量小于3架。

(3) 精轧辊缝两端必须保证一致, 不允许单面调整, 以保证轧制过程的稳定。

(4) 切分、预切的料型要保证左右一致, 切分带厚度保持在1mm以内, 防止切分刀粘皮。

(5) 速度调整应最大程度的减少拉钢, 电流曲线平整。适当使用冲击补偿来减少堆头。

(6) 要关注测量各架料的宽度, 因为它决定了下一架的压下量、宽展量和是否好咬入。

(7) 要计算各架次的延伸系数, 并向经验值靠近, 这是持续稳定的基础

(8) 注意细节, 可以减少不必要的堆钢。如:轧制线偏正、横梁水平、2#套高低、18架出口导槽等。

6 应用效果

Ф12规格螺纹钢四切分轧制技术在宣钢一小型成功开发后, 通过工艺和设备的不断优化改进, 随着轧制技术的成熟及稳定, 2013年全年产量完成90万吨, 较Ф12mm三切时的全年产量提高12.5%, 在产量增加的同时, 吨钢电耗、煤气消耗等技术指标均有一定程度降低。Ф12 mm螺纹钢四切分轧制技术的成功应用, 产生了较大的经济效益, 为降本增效提供了坚实的基础条件。

参考文献

切分音与切分节奏的解决方法 篇2

1 什么是切分节奏

切分音是旋律在进行当中, 由于音乐的需要, 一个音符由弱拍延续到强拍或由弱位延续到强位, 这个音便是切分音。切分音最大的特点是打破了原来音乐正常的节奏重音, 让原来处于强拍或强位的音变为弱拍或弱位了, 而本身处于较弱位置的切分音反而成为此处最强的音了。切分音使音乐在节拍上表现得更为丰富多变, , 让音乐更有动感, 在听觉上造成一种意外的强弱交错。

常见的切音分可以分几种情况:

1 由弱拍延续到强拍

在例1中, 第一小节的Sol、第三小节的Do与第五小节的Re分别延长到下一小节相同高度的音, 它们都满足“一个音由弱拍延续到强拍”的特点, 它们都是切分音, 它们在演唱 (奏) 时都应该成为强音。

2 由弱拍延续到次强拍

例2中, 第一小节的Mi与第二小节的Si都是由小节的第二拍 (弱拍) 延续到第三拍 (次强拍) , 它们均满足切分音最核心的特征, 即:由较弱的位置延续到较强的位置, 所以它们都是切分音, 成为该处特别要强调的音。

3 由弱位延续到强位

对于一拍两个音的节奏如, 前半拍的音为强位, 后半拍的音为弱位。所以一个小节里, 并非强拍里的每个音都比弱拍里的音强。可以肯定的是, 强位上的音一定比弱位上的音要强些。如在四二拍里的四个音由强到弱排列, 依次为第一个音, 第三个音, 第二个音, 第四个音。

在例3中, 第一小节的Sol与第二小节的Dol都满足由弱位延续到强位, 所以它们都是切分音。在实际记谱时, 应为:

4 由弱位延续到次强位

在这样的节奏中, 第一个音是在强位, 第三音是次强位, 另两个音都在弱位上。这两个音按由强到弱的顺序排列, 应依次为第一个音, 第三个音, 第二个音, 第四个音。

在例4中, 第一小节第二个音与第三小节第二音都是由弱位延长到次强位, 也是由较弱的位置延长到较强位置的, 所以它们都是切分音。应加重。

上面讲的四种切分音是音乐中最常见的切分音, 实际乐谱中还有其他形式, 如等等, 我们都可以根据切分音的本质特点, 即“由较弱的位置延续到较强的位置”得以判断, 对切分音予以加重, 从而以合理的方式表现音乐。

2 如何准确演奏切分节奏

现在识别切分音已不成问题了, 那么, 如何把握切分节奏, 准确演奏切分节奏呢?

对于这种切分节奏对于一般学生来说, 现在已不成问题了, 现主要值得解决的切分节奏主要有下面几种:

2.1 , 这种节奏我们很容易找到它的原形:, 然后仍用加“a”换“打”的办法 (打打a打) 便可得到准确的唱法 (或奏法) 了。

2.2 , 这个切分节奏的原形是, 我们可以唱作“打打a打”来得到准确的节奏。

2.3 , 这个切分节奏的原形就是, 我们可以唱作“打打a打a打a打”来得到正确的节奏。

2.4切分音在双手配合的演奏中

当一只手是切分节奏, 另一只手是其他类型的节奏时, 解决方案是:分析两只手的节奏对应关系, 演奏时主要关注较密的节奏, 另一只手只需弹在相对应的的点上。如《阿拉木汗》:

稍作分析, 便可看出左手与右手的音是如何对应的。所以不少学生发现双手一起作配合弹奏时, 切分节奏显得更简单了。因为其中一只手 (如这里的右手) 的节奏已概括了双手的节奏点。左手的切分节奏完全就可以用对应右手某个音的方法而得到准确解决。

摘要:切分节奏是钢琴弹奏中的难点之一。学琴者在节奏上的错误或节奏不准确是弹奏中最常见的问题。先详细介绍了切分音的类型及演奏特点, 继而提出了解决此类节奏的弹奏难点, 关键是把节奏再分解, 找出切分节奏的原型。

印刷公式中粘连字符的切分 篇3

由于科技文献中含有大量的数学公式, 所以数学公式的识别是光学字符识别 (Optical Character Recognition, OCR) 系统的重要组成部分。在公式识别系统中, 字符切分中的粘连字符切分已成为限制识别技术发展的瓶颈问题。据统计有一半以上的识别错误源于错误的切分[1]。因此, 如何实现公式中粘连字符的正确切分是提升公式识别系统性能亟待解决的问题。

目前虽然公式识别领域的研究已取得很大进展, 但国内外针对公式中粘连字符切分的研究还并不成熟。到目前为止, 仍没有一个完整的、适用性强、相对稳定、切分效果较好的方法能够彻底解决公式中粘连字符的切分问题。目前提出的数学公式中粘连字符的切分方法大都是在继承和发展现有的针对一般字符切分的方法的基础上提出的, 主要可分基于识别的 (如文献[1]中采用的滑动窗口的方法) 和非基于识别的 (如文献[2,3]中采用的综合轮廓凹凸特性和投影的方法) 两类。基于识别的相对切分正确率高但资源消耗大;非基于识别的虽然资源消耗小, 但切分效果有待提高。由于公式中粘连情况的复杂多样, 文献[1,2,3]中的方法均显出一定的适用性和局限性。

因此, 针对上述情况, 本文提出一种综合考虑粘连字符形态特征, 无需进行粘连字符个数判断[4]的粘连切分算法。公式中的字符粘连分为三类:垂直上下粘连、水平粘连和角标粘连。由于垂直上下粘连的种类比较少, 除分数线、极限、连乘、连加外, 其它符号存在上下粘连的情况很少, 因此垂直上下粘连的情况已被分成上述四类被分别处理, 现在尚未解决的是水平粘连和角标粘连。所以本文提出的算法主要针对公式粘连字符中的水平和角标粘连的情况。该算法的主要内容是:首先以滴水算法为指导思想寻找峰和谷, 然后根据峰和谷的位置、位置关系及对应位置的垂直投影等特点选出最有可能的切分点, 最后根据切分点附近的笔画信息确定切分路径。

1 寻找粘连位置

1.1 定义峰和谷

峰和谷是本文为了便于表示粘连位置的相关特征、以滴水算法为指导思想提出的概念。简单的说峰是从谷开始寻找到的第一个使水滴不上升, 不下降的位置;谷是从峰开始找到的第一个使水滴不下降、不上升的位置。关于峰和谷概念的具体解释和寻找方法将在后文中进行详细的介绍。本文首先通过连通区搜索算法[5]找到粘连字符的外接矩形, 根据切分的需要, 定义峰和谷的数据结构如下:

1.2 寻找峰和谷

首先以从上向下滴水算法为指导寻找峰和谷:

(1) 如果寻找第一个峰, 则从矩形框的左上角按左向右、从上向下扫描, 找到第一个黑色像素点, 以该点的横坐标作为峰的起点。假想该黑色像素点上方的白点为水滴, 此时水滴沿笔画向右流动, 如果水滴开始下降, 则记录下改点作为峰的终点。将水滴移到峰的起点的上方, 沿笔画向左下降, 当水滴停止下降判断是否达到了矩形框的边界, 如果不是边界则记录下该点作为第一个谷的终点, 水滴继续沿笔画向左移动, 如果水滴下降或不再移动, 记录该点做第一个谷的起点。但要求该谷的终点与起点的横坐标间距大于α, 如图 (2) , 否则删除该谷。然后转3。

(2) 如果不是寻找第一个峰, 则由3中得到的谷的终点所在横坐标为起点, 按左向右、从上向下扫描找到第一个黑色像素点, 该点的横坐标作为新的峰的起点, 如果该峰的起点横坐标大于前一个谷的终点的横坐标, 则修改谷的终点的值为峰的起点的值。假想该黑色像素点上方的白点为水滴, 此时水滴沿笔画向右流动, 如果水滴开始下降, 则记录下该点作为峰的终点。

(3) 水滴由峰的终点沿笔画向下方流动。当水滴停止下降时 (但不是已经到达矩形框的边界) , 记录改点做为谷的起点, 水滴沿笔画继续向右移动, 如果水滴不能再向右移动或又开始下降, 记录该点为谷的终点。如果是由水滴继续下降而得到的谷, 则要求谷的终点与起点的横坐标间距大于α, 复制该谷结点, 一个作为谷, 一个作为峰。如图中下边的谷2就是即为谷又为峰。否则删除该谷, 继续根据水滴的移动寻找谷。如果水滴停止下降且到达矩形框的边界则寻找峰和谷的过程结束。否则转过程 (2) 。

从下向上滴水找峰和谷的过程与从上向下找上开口的谷的过程一样, 唯一不同之处就在于方向:把向上改成向下就可以了

2 处理峰和谷, 寻找候选切分点

设从上向下滴水寻找峰、谷得到的链表为nodeline1, 从下向上滴水寻找峰、谷得到的链表为nodeline2, 设node1、node2、node3为其中一个链表中的连续三个结点, 其中只有node2是谷。因为谷一定在两峰之间, 如果node2是链表nodeline1中的谷, 则称其为上谷, 反之, 如果在nodeline2中, 则称其为下谷。

(1) 如果满足公式 (1) , 则删除该谷。

node1.right-node2.right>βnode2.left-node3.left>β (1)

(2) 考虑到噪声的影响, 如果满足公式 (2) , 则删掉该谷。

node1.y-node2.y<λnode3.y-noce2.y<λ (2)

(3) 由于考虑了容差, 所以峰不可能是一个点。所以如果node3.right=node3.left, 则删掉该峰左侧的谷。

(4) 由于粘连点两侧一定至少个有一个字符, 所以如果链表中第一个谷的起点距矩形框左边界的距离小于γ或链表中最后一个谷的终点距右边界的距离小于γ则删掉该谷。

(5) 由于粘连点一定不是对字符垂直积分投影值最大的点, 所以对整个连通区做垂直方向上的积分投影, 投影结果装入大小等于矩形框宽度的一维数组SUM[], 使谷的起点和终点的值均等于谷所对应位置的投影值最小的点的横坐标, 如果该点的投影值小于α个像素点则该谷的权值加2, 如图4中下边的谷2, 相反如果谷所对应位置的投影值很大, 则该谷的权值减1或2;如图4中上边的谷1和3。

(6) 如果链表nodeline1的谷正好是链表nodeline2的峰, 则该谷的权值减1, 同样如果nodeline2的谷正好是nodeline1中的峰, 则该谷的权值减1。如图4中的谷3和下边的谷1。

(7) 因为两个粘连点之间一定有一个字符, 所以设谷node1和谷node2是相邻的两个谷, 如果满足公式 (3) , 则两个谷中只有一个是合理的, 此时根据他们的权值做取舍。

|node1.y-node2.y|<γ&&γ<node2.left-node1.right<α (3)

(8) 去掉所有的峰结点。

找到权值最大的谷做为候选切分点。通过如上步骤对于下图来说, 谷2所对应的点就为候选切点。

3 选择切分路径

找到了候选切分点之后要解决的是如何实现粘连字符的正确切分。如果候选切分点大于2个, 则判断任意两个候选切分点的是否表示的是同一个位置。设任意两个候选切分点为node1和node2, 如果满足公式 (4) 。

则认为两个切分点表示的是同一个位置。此时直接在两个候选切点之间寻找一条通路以形成切分路径。

如果不存在表示同一个切分位置的两个候选切点, 本文通过印刷体数学公式的特征进行切分路径的寻找。由于印刷体字符笔画相对均匀, 也就是说一个字符的某一笔画的宽度是不变的, 所以粘连位置左右两边笔画宽度的比例变化很小, 除非受到了其它笔画的影响, 对于受到了其它笔画影响的像素点, 本文将根据上一个切分点和下一个切分点的位置确定该切分点, 如果下一个切分点仍受其它笔画影响而没有找到, 则继续往下找, 直到找到为止, 如果直到最后一个黑点仍没找到, 则沿起点所在像素列做切分。具体切分过程如下。

首先求出上步所找到的切点在同一像素行包含该切点的连续的黑色像素点的个数, 然后分别求出位于该切点左侧和右侧的黑色像素点个数的比值, 设为K。假设起始切点的坐标为 (X, Y) , 如果是经过从上向下的滴水法找到的该切点, 则按流程图5寻找切分路径。其中Value (x, y) 函数用来求点 (x, y) 的值, l是连续黑色像素点的个数, x是连续黑色像素点的左端点。n是受笔画影响而不能找到合理切分点的像素行的行数。最后将找到的这些白点按先下方, 后左、右的优先级顺序连成一个通路, 该通路就为切分路径。对于从下向上的滴水法找到的切点, 切分方向改为向上, 最后寻找通路时按先上方, 后左右的优先级顺序寻找。

4 试验结果及讨论

本试验共搜集了327个粘连字符, 其中含有253个两个字符的粘连和74个3个字符的粘连, 其中水平粘连和角标粘连都有。文中的αβλγ是通过对其中100个粘连字符进行训练得到的。对剩下的227个粘连字符, 实验测试的切分正确率达93.74%。本文提出的算法对两个字符的粘连效果相对更好一些。图6为327个粘连字符中的部分典型样例, 图7是对图6中的粘连字符进行切分的结果。

由图7可看出本文提出的针对数学公式中的水平粘连和角标粘连的粘连字符的切分的算法取得了相对满意的效果。但通过试验和分析也发现, 本文的切分方法虽然对大多数的粘连字符切分效果很好, 但如果谷找失败了, 那么整个切分就全错了, 如图8所示。所以对于如何更为准确的找到谷是值得进一步研究的。

摘要:印刷体数学公式中存在粘连字符是限制公式识别系统性能提升的主要因素之一。因此提出一种针对公式粘连中字符水平粘连和角标粘连的切分算法。该算法首先以滴水法为指导思想寻找峰和谷;然后根据峰和谷的形态特征、位置关系及对应位置的垂直投影等特点选出候选切分点;最后根据切分点附近的笔画信息确定切分路径。实验结果表明, 该方法能够很好地适用于公式中水平和角标的粘连字符的切分。

关键词:公式识别,粘连位置,切分点,滴水算法

参考文献

[1]Nomura A, Michishita K, Uchida S.Detecting and segmenting of touching characters in mathematical expression.IEEE Proceedings of the Seventh International Conference on Document Analysis and Rec-ognition, 2003;1:126—130

[2]罗佳, 王玲.基于凹凸特性的非限制粘连手写数字串切分.微计算机息, 2007;23 (9-1) :275—277

[3]胡小锋, 陈超, 叶庆泰.图书.索书号粘连字符的切分.上海交通大学学报, 2005;39 (4) :553—556

[4]张闯, 吴铭, 郭军.非限制自由手写粘连数字串数字个数的判断.北京邮电大学学报, 2004;27 (3) :63—67

英汉语音超切分语音对比研究 篇4

世界上没有两种完全一样的语言, 每一种语言都会展现出自己独特的语言特征。所有人在学习一种外语的同时都会或多或少带有一些母语的痕迹。Skinner认为对语言学习最好的解释便是刺激与反应。学习一种语言就是形成一种新的语言习惯, 学习者母语和二语之间的差距越大, 学习过程就会越困难。语言迁移有两种类型: 正迁移和负迁移。后者也被称为语言干扰。在语言学习的过程中, 母语的迁移和干扰作用将在语言系统的各个层面都得到体现。Ellis指出在语音及词汇层面的干扰作用最为明显。

本文采用Lado的对比分析方法, 旨在探寻汉语对中国的英语学习者语音方面的干扰作用, 以便帮助中国的英语学习者。对于切分音位的对比研究已经有很多, 因此本文不再赘述, 重点通过重音、节奏、语音语调及连读四方面对比英汉在超切分语音层面上的区别。

二、超切分音位对比分析

1. 重音

英语中的重读不仅仅是超切分结构的一部分, 也是语调和节奏的基础。但是在汉语中, 重读的效果不是如此的明显。单词重音和句子重音在英汉两种语言中都存在, 但是却又不同的作用。

在英语中, 单词重音是区分意义和词性的一个重要标准。一个单词中不同的重音就可以完全的改变一个词。大多数英语单词只有一个重音, 有些也拥有次重音, 但次重音和重音不会离得很近。在汉语中, 字的重音和意义无关, 一个字的意义取决于它的声调。几乎每一个汉子都需要重读。因此, 中国学生很少关注到单词重读, 忽略了英语单词中重音和次重音之间的对比, 将重音放在错误的地方。

句子的重音在英语中也起到了决定性的作用。句子的意义也由句子重音所决定。英语中有许多功能性单词, 例如介词、连词、冠词和助词, 它们在英语中出现的频率极高。除非在特殊情况中, 否则这些单词都是弱读的, 使得英语的句子重音不会离得很近。但是, 在汉语句子中起主导作用的仍然是声调, 句子重音几乎是一个接一个的出现。中国学生习惯将英语句子中的每一个单词都带着重音和响度来读, 并不区分重读和轻读。

2. 节奏

英汉语言中都有节奏。英语的节奏是连奏式, 具有实意的单词被重读, 功能词被弱读, 重读和弱读交替出现。重读音节的发音音高较高, 发声清晰且长, 轻读音节则正相反, 音高较低, 发音模糊且短, 有时带有连读、省略和同化。无论两个重读音节中有多少个轻读音节, 每个节奏单元的发音时间是一致的。两个重读音节之间的轻读音节越多, 发音越快, 因此, 英语被视为是以重音计时的语言。

汉语的节奏是断奏式, 一个音节接着一个音节且每一个音节都有重音, 几乎所有的音节都需要清晰地发音, 并且发音时长相等, 音节之间的界限也很明显, 因此, 汉语被视为以音节计时的语言。中国学习者在母语的干扰作用下, 喜欢将每个音节都分明地读出来, 使用相同的响度、音高和长度, 使他们得英语听起来不自然。

3. 语音语调

英语是语调语言, Geoffrey Leech教授称, 话语的有效沟通在很大程度上取决于语调, 语调能够展示在英语口语中可以展示说话者的情感和意图。英语的语调是属于整个句子的, 而不是某个单词, 因此语调的不同不会导致单词意义的变化。汉语是声调语言, 尽管语调也可以表现出说话者的感受, 但是汉字的意义是由声调决定的, 不是语调。

英语中有超过11种的语调, 但是最基础的只有7种。不同的语调需要听话者予以不同的恢复, 从而形成不同的交流形式。因为英语音节没有固定的声调, 发音的升降和音高的宽度都是自由的。汉语只有4种声调:一声、二声、三声和四声。对比得知, 每一个汉语音节的声调都不能随意改变, 由于此限制, 汉语的语调变得平而稳。这一母语的特征会对中国学习者掌握夸张的英语语调来不小的阻碍。

4. 连读

连读是音系学中的一个术语, 指在音系结构中, 两个发音单元界限之间的停顿和过渡。“连读的意义在于它能使我们区分出音节、单词以及句子之间的界限” (何, 2002, p.71) 。

在英语音节中, 如果一个元音过渡到另一个元音, 必须有明显的舌头滑动过程;如果一个元音和一个辅音连在一起, 必须有一个明显的合成。因为英语是连奏式, 将第一个单词结尾的辅音和第二个单词开头的元音拼在一起的过程是可以通过不间断的滑动实现的。但是汉语音节的结构非常紧凑, 因此两个因素之间的过渡和合成过程快而模糊。正因为汉语是断奏式, 音节自身就是一个清晰的音系组, 很难与周围的音节想连接起来。中国学生习惯将每一个音节都读得清晰响亮, 将音节之间分割出来, 并在元音开头的单词之前加一个声门塞音。

英语中, 连诵现象非常普遍, 例如, it is在实际发音中不会听起来像两个单词, 会被连诵, 听起来像一个单词。但是连诵在汉语中却找不到栖身之地。如果将“西安”连诵, 则变成了“先”, 没有人会理解说话者想要表达的内容。

三、总结

一个语言最明显的特征便是语音, 它能够将两种语言即刻区分开来。因此, 学习一门外语的第一步就是语音的学习, 而对比分析母语和目的语则能够帮助学习者更快更准确地掌握语音。

摘要:本文探讨了英语及汉语超切分语音方面的差异以及中国学生母语迁移对其英语语音学习的影响。文章采用对比研究方法, 结果显示英语及汉语在重音、节奏、语音语调以及连读等方面都有极大的区别, 并且这些区别为学习者的语音带来了一定程度上的干扰, 建议语言学习者们留意英汉语音方面的差异, 并采用对比分析的方法纠正自己的发音。

关键词:语音,重音,节奏,语调,连读

参考文献

[1]Cruttenden, Alan. (2001) .Gimson’s Pronunciation of English.Beijing:Foreign Language Teaching and Research Press.

[2]何善芬 (2002) 。《英汉语言对比研究》。上海:上海外语教育出版社。

采用图形加速的三角网格实时切分 篇5

随着逆向工程和扫描技术的应用[1],三角网格模型及其处理在牙科领域有突破性的应用。能够较容易地获得口腔模型的扫描数据,但是由于很多牙科应用是针对单个牙齿的,比如补牙,故从整个口腔模型中切割出单个牙齿数据( 即单齿切分) ,对网格算法的实时性和可操作性就有很高的要求。本文针对牙齿模型的单齿切分,研究开发了一套快速、实时的三角网格切分算法。

对于模型切割已有学者做过研究[2,3,4,5,6,7],陈矛等人提出了一种基于改进的MC( marching cubes) 快速切割算法; 赵新方等人提出了基于拓扑关系的剖切算法。这些算法都是以“刀面模型”对目标模型进行“一刀切”。而在牙科领域,单颗牙齿的切分需要根据牙龈与牙齿的边界处的特征决定切分曲线,于是本文提出根据边界特征做一系列连续的小平面,分别与目标模型求交,得到一系列分割点,再追踪生成切分曲线。

对于三角网格的求交问题,有学者已做过研究[8,9,10,11,12,13,14,15]。周海在细分曲面造型技术研究中提出了基于三角形重心构造包围盒,然后通过包围盒检测的技术进行求交计算[12],该方法求交效率不高,而且容易出现漏交现象; 李宁等人在优化的三角网格曲面求交算法中提出了层次包围盒方法,以三角形与子包围盒是否相交为依据确定三角形所属的子包围盒[13],该方法虽然能解决漏交问题,但是更耗费时间,而且包围盒的方法主要适用于两张三角网格曲面求交的情况; 蒋钱平等人提出了基于平均单元格的快速求交算法[14]; 郑军红等人提出了基于拓扑关系的交线快速生成方法[15]。

本文的研究目标是实现实时三角网格快速求交与切分算法。考虑到之前的很多网格求交算法在求交的完整性、求交效率和实时性等方面的不足,本文通过Open GL的拾取机制实现网格求交曲线的实时绘制,并根据Open GL的场景视角实现快速求交计算[16,17]。在实时性和求交效率方面较其他方法在求交效率等方面有较大提升。本文提出的算法主要思路分为如下几个步骤: ( 1) 绘制屏幕曲线; ( 2) 映射屏幕曲线到三角网格模型上,找到穿透三角面片; ( 3) 求交计算,追踪生成交线; ( 4) 边缘相交三角面片重新三角化; ( 5)模型分离。在本方法中,利用Open GL的拾取机制以及鼠标滑动时的场景的视角矩阵,可以有效提高穿透三角面片的检测和求交计算的效率。

1 算法描述

本文的主要算法如下: ( 1) 开始切分时,根据当前视角在需要切分的边界处绘制屏幕曲线; ( 2) 将屏幕曲线实时地映射到三角网格模型上,得到一系列连续的穿透三角面片以及各三角面片上的穿透点,这里采用Open GL的交互式拾取机制来完成,具体操作就是对屏幕曲线上的每一个点做一次拾取操作,得到对应的穿透三角面片和穿透点; ( 3) 根据穿透点与对应的穿透三角面片进行求交计算,得到边界分割点; ( 4) 根据AIF快速搜索算法追踪这些边界分割点[18],得到一条切分曲线; ( 5) 旋转视角,重复上述操作,直到得到一条闭合的切分曲线; ( 6) 根据闭合的切分曲线将切分曲线上的三角形重新三角化[19],建立新的拓扑关系[20]; ( 7) 根据新的拓扑关系,以闭合的切分曲线为边界分离曲线两侧的三角形。

2 分割线的实时生成

考虑到单齿切分操作的便利性和实时性,本文允许采用交互式实时绘制的方法对网格进行切分。通过鼠标实时在屏幕上的运动,捕获运动轨迹并实时得到运动轨迹和网格的交线。为此,本文通过如下三个步骤来实现: ( 1) 鼠标拖动,绘制屏幕曲线; ( 2) 穿透面片检测; ( 3) 求交计算,交线追踪生成。

2. 1基于Open GL的穿透交点快速生成及穿透三角面片检测

通过鼠标拖动,在屏幕上获得的曲线是一系列紧密的二维离散屏幕点,需要将这些点映射到三维空间网格模型上。点的映射过程通过当前的场景视角来进行,即每一个点都有一条通过屏幕向里的射线,这条射线穿过模型中的三角面片,记录该面片及射线与该面片的交点。这样记录每一个点的映射即可找到一系列的穿透面片及对应穿透交点,这一系列的穿透三角面片即为切分曲线上的三角面片。这整个过程采用Open GL的选择机制来实现映射过程的加速。

在本文中,通过利用Open GL的选择机制,每个点都可以快速有效地找到映射的穿透三角面片,极大地简化并加速了在海量三角面片中的检测。对于屏幕曲线上的每个点通过Open GL的反映射得到该点对应的近截面和远截面上的两个点,这两点之间的连线将穿过模型上的三角面片( 如图1 所示) ,该面片即为穿透面片,并记录对应穿透交点。当模型是三维,就会出现连线穿过多个三角面片的情况,此时选取离近截面最近的穿透三角面片。

上述过程可以为每一个屏幕点找到一个穿透三角面片,然而屏幕点的密集性必然会出现多个屏幕点映射后穿透同一个三角面片,如图2 左侧图形所示。经过本文验证,每个三角面片只需保留一个穿透交点就已足够完成求交计算并保留求交曲线的特征。为方便计算,对于同一三角面片上的多个穿透点,本文选择只保留第一个穿透点,如图2 右侧图所示。

2. 2 交线的追踪生成

上述过程中得到一系列穿透三角面片及其穿透交点,根据这些信息,可以追踪生成一条交线,步骤如下:

( 1) 计算每个三角面片上对应点的视角向量。在2. 1 节中提到过穿透面片检测时会得到远近截面上的两个点,该两点之间的向量即为视角向量:

( 2) 通过相邻两三角面片的对应穿透点之间的方向向量( 如图3 向量b所示) 与其中一点的视角向量( 如图3 向量a所示) 做求交平面,两三角面片之间存在一定的夹角,平面计算方法如下:

方向向量:

其中( x1,y1,z1) ,( x2,y2,z2) 为两三角面片上各自保留的穿透点。

令:

则计算求交平面法向量为:

则:

根据法向量即可求得求交平面:

该平面将横穿该两相邻三角面片。

(3)将步骤(2)中根据式(1)-式(10)所求的平面与图3中两三角面片的共边求交,并记录交点。

( 4) 将一系列穿透三角面片及穿透交点分别做如上步骤,即可得到一系列的分割点,如图4 所示。

( 5) 将上述计算得到的一系列分割点按顺序依次连接,即可在模型上得到一条求交曲线,如图5 所示。

2. 3 穿透面片不连续处理

前文已提到过屏幕曲线只是一系列离散的屏幕点,当这些屏幕点映射到空间模型上时,很有可能会出现得到的一系列穿透三角面片并不是连续的,如图6 所示。图中第四个离散点和第五个离散点中间有一个三角面片并没有被选中,图中用一个叉号标记该三角面片,该三角面片使整个穿透三角面片不连续,故将该三角面片称为“被跳跃的三角形”。

经过本文研究发现,因为鼠标移动实时绘制的屏幕曲线是一系列十分密集的屏幕离散点,一般极少出现这种跳跃的情况,而一旦出现这种情况,那么必然是屏幕曲线十分靠近“被跳跃三角形”的一个内角极小的顶点。这种情况下将该顶点作为断裂处( 即不连续处) 的分割点,并且对于与“被跳跃的三角形”共顶点的碰撞三角面片只保留第一个和最后一个碰撞面片。例如对于图7 中第3、第4、第5 和第6 个穿透点对应的三角面片与“被跳跃的三角形”是共顶点的。该情况下只保留第3 个和第6个穿透点的三角面片,而忽略了第4 个和第5 个穿透点对应的面片,并以该公共顶点作为其中一个分割点,依次连接各分割点,得到求交曲线如图7 所示。图中三角面片边上的交点为求交计算得到的一系列分割点。

3 基于交线的网格切分

本文基于第2 节中得到的交线来进行网格模型的切分,网格切分主要分如下两个步骤: ( 1) 切分边缘的网格重新三角化;( 2) 模型分离。

网格的重新三角化主要根据交线与三角面片的相交情况来进行,有以下几种情况: ( 1) 最主要的情况是交线与三角形的两个交点均在边上,该情况只要对四边形部分进行一条对角线的连接,并重新记录拓扑结构即可,如图8 所示; ( 2) 在特殊情况下或者对特殊情况处理后可能出现一个交点与三角形某一顶点重合,另一交点在该顶点对边上,该情况三角形已分为两个三角形,不需要添加新的连线,只需重新记录拓扑结构即可,如图9所示; ( 3) 当两交点均在三角形顶点上时,即交线与边重合,如图10 所示,此时不需要重新三角化,并保持原来的拓扑结构即可。

模型的分离主要根据上文中网格模型重新三角化时在切割边缘部分建立的新的拓扑结构及原先已存在的拓扑结构来进行。本文以切分曲线为边界,采用广度优先搜索遍历算法来分离模型,主要算法描述如下:

( 1) 访问切分边界上任意一侧的某一个三角形为起始三角形。

( 2) 初始化一个队列为仅包含起始三角形。

( 3) 当这个队列为空时,跳到( 4) ,否则做以下工作:

(1) 从队列中弹出队首元素。

(2) 遍历该队首元素三角形的三条边,做如下工作:

如果该边不是边界边,则对该边另一侧的三角形w做如下工作:

如果w未被访问,则:

访问w;

将w压入队列。

(3) 回到( 3) 。

( 4) 将一系列访问到的三角面片从模型中分离出来。分离算法流程如图11所示。

4 实验结果

本文在VC + +环境下实现了采用图形加速的牙齿三角网格模型的切分。结合Open GL实现了三维显示,如图12、图13 所示。图12 中粗黑色曲线( 牙齿与牙龈的交接处) 为屏幕曲线映射并求交后得到的切分曲线,其中图12( b) 为切分曲线的区部放大图。根据得到的切分曲线,将与切分曲线相交的三角面片重新三角化,并根据AIF快速搜索算法在切分边缘建立新的三角网格拓扑结构。最后根据广度优先遍历算法,以切分曲线为边界,分离流程如图11 所示,将需要的部分从模型中分离出来,如图13 所示为两颗牙齿被切分下来后的情况,图中被切分下来的牙齿进行了适当的位移。

5 结语

女书文字切分算法的设计与实现 篇6

基于结构分析的切分,即根据图像特征中寻找字符切分的规则;

以识别反馈[1]为基础的切分,该方法效果好,但比较耗时,实际应用较少;

整体切分策略[2],即系统将字符串作为一个整体进行词识别而不是字识别。

当前,国内OCR产品主要是针对汉字、英文的识别。对少数民族文字的识别也有一定的研究,但相对比较成熟的汉字和英文识别就显得相形见绌。本文正是以女书文字识别为例,讨论了基于复杂背景下脱机手写体女书字符切分技术的设计与实现。对交叉和粘连字符,本文能够取得良好的切分效果。

1 预处理—二值化

对图像进行二值化处理的关键是选择一个合适的阀值,不同的阀值设定对图像进行处理会产生不同的结果。二值化阀值设置过小易产生噪声;阀值设置过大会使一些背景变成前景。实验表明,动态选取阀值更能适应不同类型的图像,这样可以确保图像的特征信息不会丢失太多。因此本文采用了大津法[3]来进行图像的二值化。

其原理是:把图像直方图用某一灰度值分割成两组,即前景和背景,当被分割成的两组间方差最大时,该灰度值就为该图像二值化的阀值。

2 粗切分

在粗切分处理中,采用了多次投影法,把既不相连也不交叉的字符分割开,后对宽度较大的外接矩阵再次使用投影法,直到所有的外接矩阵都不能再分割。

具体算法流程如下:

1)定义一个数组col[],数组长度为图像的高度。在垂直方向上投影,把每一行的黑像素点个数放入相应的col[]中(二值图像中,前景为黑像素点,背景为白像素点)。从col[]的第0个元素开始比较,当col[i]大于某一个阀值q时,我们认为第i行为该图像中第k行字符的上界up,接着从col[i+1]开始比较,当col[j](j>i+1)的值小于阀值q,认为该图像的第k行下界down为j,由此可以确定出第k行的上界up和下界down。

2)定义一个数组row[],数组长度为图像的宽度。在第up行和第down之间在水平方向上的投影,把第j列的黑像素点放入row[j]中。从row[]的第0个元素开始比较,当row[j]大于某一个阀值p时,我们认为第j列为该图像中第k个字符的左边界left,接着从row[j+1]开始比较,当row[jj](jj>j+1)的值小于阀值p,认为该图像的第k个字符的右边界right为jj,由此可以确定出第k个字符的左边界left和右边界right。依此方法可以确定出该行里每一个外接矩阵的左边界和右边界。

3)如果还没查找到最后一行,则回到步骤1),继续确定第k+1行字符,若查找到最后一行,则第一次使用投影法结束。

4)对于之前保存下来的外接矩阵进行统计,若该外接矩阵的高度大于1.5倍的平均高度(平均高度就是所有外接矩阵的高度之和除以外接矩阵的个数),则对该外接矩阵再次使用投影法,直到不能切分出更小的外接矩阵。

图1为灰度图像,经过二值化得到了二值图像,然后进行粗切分得到右边的效果图2,结果表明,交叉的字符,粗切分没有取得很好的效果。因此必须经过进一步的切分才可以提高正确率。

3 细切分

细切分是在粗切分的基础上对一些行列结构不明显、字符之间有交叉或者相连部分的字符进一步处理,从而得到一条合适的切分路径。因此细切分的主要工作为以下三点:

1)对于行列结构不明显,从而存在较大外接矩阵的情况,本文采用了四连通域处理;

2)对于交叉的字符,本文采用曲线切分的方法;

3)对于相连的字符,本文采用改进的滴水算法。

3.1 连通域

基于连通域的字符切分可以有效的处理行列结构不明显的图像(这在脱机手写体中经常出现),同时对于字符的部件合并也非常有效。

其算法流程如下:

从起始行的左端向右端开始扫描图片的像素值,当遇到黑色像素值,则把该点的坐标压入队列中,同时标志位变由1变为0,表示该点已经扫描过,之后采用四连通的方法扫描该点的上下左右,如果是黑像素点,则压入队列中。直到最后队列为空,则该连通域已全部扫描结束,同时记录该连通域的最左端、最右端、最上端和最下端,从而确定了该部件的外接矩阵信息。

任意一个部件m的位置信息都包括它的宽度W(m),高度H(m)、左上角坐标(l e f t(m),u p(m))和右下角坐标(r i g h t(m),d o w n(m))。将部件m和n合并[2]成部件k的操作如下:

字符部件的四种结构关系,上下关系和包含关系的合并都比较容易,但由于手写体的随意性,对于左右关系和部分包含关系必须依据图片的整体信息和汉字的结构特征等相关的信息才能作出合理的合并。

实验结果表明,合并之后依然存在一些可切分的外接矩阵。因此,使用曲线切分对其进一步的切分可以提高切分的准确率。

3.2 曲线切分

在介绍具体算法之前,首先定义几个概念:

1)左区域字符:在切分窗口中,左边字符的右部分;

2)右区域字符:在切分窗口中,右边字符的左部分;

3)孤立块:在切分窗口中,既没有跟窗口的左边界相交,也没有跟窗口的右边界相交的区域;

4)中垂线:垂直经过切分窗口中心的线。

具体算法流程如下:

1)沿着窗口的左边缘扫描,把与窗口左边缘相交的左区域全部扫描完,并且把他们的像素值赋为某一个值a;

2)沿着窗口的右边缘扫描,把与窗口右边缘相交的右区域全部扫描完,并且把他们的像素值赋为某一个值b;

经过步骤1)和2)之后得到如图4:

3)确定出左区域字符和右区域字符之后,按行开始找到可切分路径的经过点。对于第i行,若存在左区域字符,则把左区域字符最右端的列标记录下来,保存在left中,若该行没有左区域字符,则left的值为窗口左边缘的值;若存在右区域字符,则把右区域字符的最左端的列标记录下来,保存在right中,若没有右区域字符,则right的值为窗口右边缘的值。因此,可切分路径经过第i行的位置为(i,(l e f t+r i g h t)/2)。依次确定出每一行可切分路径经过的位置,得到如图5的结果:

然而,针对一些特殊情况(比如存在孤立块),沿着窗口的左边缘和右边缘不能扫描窗口内部所有的部件,如图6:

因此,本文对上述算法进行了改进,即在确定可切分路径的同时,如果发现可切分路径经过的未被扫描的部件,则对该部件进行扫描,找出该部件的最左端和最右端。计算最左端和最右端距离中垂线的偏移量,如果最左端的偏移量大于最右端的偏移量,则认为该部件为左区域字符,反之,认为该部件为右区域字符。之后,再采用上述的曲线切分,得到图7:

3.3 粘连字符的切分

如果两个字符粘连,根据上述的切分策略都无法找到一个可行的路径可以把两个字符切分开,可以利用滴水算法[4]。不过,传统的滴水算法还不能准确定位粘连部位的断点,而本文则对滴水算法进行改进,从而找到合适的断点。即切分路径只能沿字符轮廓向下或者水平方向走动。

粘连字符主要是由于不存在可切分路径,所以无法切分。因此,我们利用改进的滴水算法把两个字符粘连的地方断开,让它们成为两个独立的字符,然后再利用曲线切分算法。

具体算法流程如下:

1)采用细化算法,把粘连字符细化(如下图9);

2)在细化之后的字符里找到字符粘连的最低处,然后将其断开;

3)断开粘连字符之后,利用曲线切分可以找到一条可切分路径(如下图1 0)。

4 实验及分析

本文以1024份脱机手写体女书字体样本(含复印件)作为实验数据,每幅图像中含有128个女书字符。根据本文的切分策略,首先对灰度图像进行二值化,接着采用投影法进行粗切分,最后采用曲线切分和改进的滴水算法进行细切分,实验结果表明,切分的准确率达到了7 6%。

5 结论

本文采用多种切分算法相结合的策略,在复杂背景下,能够很好的切分手写体女书字符,而且正确率也相对较高。同时,本文的切分策略在处理汉字切分方面也有良好的效果,从而大大提升了本文切分算法的应用范围。

参考文献

[1]安艳辉,董五洲.基于识别反馈的粘连字符切分方法研究[J].河北省科学院学报.2008年第2期

[2]Casey R G,Lecolinet E.A survey of methods and strategies in character segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1996,18(7):690-706.

[3]李了了,邓善熙,丁兴号.基于大津法的图像分块二值化算法[J].微计算机信息.2005第21卷第8-3期

切分技术 篇7

1 新闻视频单元自动切分算法

1.1 算法总体设计

本文提出的新闻单元切分算法分为以下4个步骤:

1) 镜头检测。采用基于投影函数的方法[1]快速检测出新闻中的镜头边界, 并将视频帧聚类成镜头。

2) 镜头聚类。利用镜头检测的结果, 首先从每个镜头中挑选出最能代表镜头特征的关键帧, 并提取出其中的直方图和SIFT特征, 然后对所有镜头的关键帧进行聚类。

3) 口播镜头检测。根据口播镜头的统计特征, 分析镜头聚类的结果, 检测出所有口播镜头。

4) 新闻单元切分。根据检测出的口播镜头, 确定新闻单元的边界, 实现新闻单元的自动切分。

新闻视频的基本结构图如图1所示。

1.2 镜头聚类

本文采用基于投影函数的方法[1]高效、准确地生成新闻视频的镜头, 然后通过镜头聚类自动识别出主持人口播镜头。本节首先对镜头聚类的方法进行分析。如图2所示, 第一行是4张不同时段主持人口播镜头中的图像帧, 第二行是4张不同新闻故事镜头中的图像帧。此时可以发现:尽管主持人镜头中会发生不同主持人的切换, 但是其背景图像的特征基本相似, 而对于不同的新闻故事镜头, 其图像内容的变化非常大。因此, 基于以上分析可以预测镜头聚类能够将多次且交替出现的主持人口播镜头聚类到一起 (如图3所示) , 而其余新闻故事镜头由于相互之间的差别较大, 一般不太可能聚类到一起。

下面给出镜头聚类的算法描述。首先采用基于解压的镜头获取[2]所提出的方法从镜头中提取出关键帧。为了更好的鲁棒性和准确性, 本文采用基于颜色量化的直方图[3]以及改进的SIFT特征点[4]来表示关键帧的特征, 此时的镜头聚类就是其对应关键帧的聚类。然后定义镜头间的距离, 如式 (1) 所示, 不同镜头间的距离是其对应关键帧的直方图距离和SIFT特征匹配度的加权和。

式中:Dhist (i, j) 表示镜头i和j对应关键帧的直方图距离, e1/mi, j表示镜头i和j之间SIFT特征的匹配度, mi, j表示镜头i和j对应关键帧上匹配的SIFT特征点的个数, λ用于表示直方图距离与SIFT特征匹配在镜头相似性度量中所占的比重 (本文在所有实验中设为0.2) 。

根据式 (1) , 计算出每对镜头之间的距离D (i, j) , 再由式 (2) 计算出每对镜头间的相似度S (i, j) , 其中σ是阈值。当距离小于等于σ时, 镜头间的相似度定义为镜头间距离的倒数;当距离大于σ时, 其相似度为负无穷, 此时表示镜头i和j完全不相似。

计算出相似性矩阵Sn×n (n表示镜头总数) 后, 本文采用基于相似性传播 (Affinity Propagation, AP) [5]的方法进行镜头聚类。与其他聚类方法相比, 如K-均值聚类[6]等, AP聚类更具灵活性, 无需预先指定初始的聚类数目。通过大量实验发现, 经过AP聚类, 所有主持人镜头所对应的标签都一致, 从而能够聚集到一起, 而其他镜头通常很难聚类到一起。在计算过程中, 由于视频镜头的数量与视频帧相比大大减少, 因此能够高效地计算出相似性矩阵Sn×n和AP聚类的结果。

主持人口播镜头聚类的算法描述为:

输入为相似性矩阵Sn×n。

输出为所有镜头的标签Ln。

初始化an×n=0, rn×n=0。

重复:

直到收敛或达到最大迭代次数:

一般说来, 本文提出的新闻单元自动切分算法适用于主持人口播镜头的前、背景图像相对稳定、变化不大的新闻视频。然而, 当前的新闻演播室通常包含大屏幕、电视墙等设备, 此时主持人背后的场景通常不是静止的, 而是动态变化的。如图4所示, 主持人背景右侧是一个不断变化的大屏幕, 此时容易发生镜头聚类的错误, 例如遗漏部分主持人镜头。针对以上问题, 本文提出了基于重要性区域检测的特征匹配方法。首先将主持人镜头中画面变化不大的部分用半透明矩形框进行标记, 然后在镜头聚类时只在该区域进行特征匹配。大量实验结果表明, 本文提出的方法能够处理口播镜头中部分背景动态变化的新闻视频, 有效提高了新闻单元切分的稳定性和准确性。

1.3 口播镜头检测

由新闻视频结构的分析可知, 主持人镜头通常是多次且交替出现, 因此, 本文根据聚类结果中所包含的镜头数目和镜头之间的距离来判定属于主持人口播镜头的聚类。口播镜头的判定函数为

式中:Num (i) 表示第i个聚类中包含的镜头数目;Sum_of_Dist (i) 表示第i个聚类中所有相邻镜头间的距离之和 (例如, 第1、2个镜头之间隔了2个镜头, 第2、3个镜头之间隔了3个镜头, 则这3个镜头间距离之和为5) 。当N (i) 取最大值时, 可以判定第i个聚类中的所有镜头均为主持人口播镜头。

一般说来, 视频切分系统通常需要批处理大量数据, 如某一频道几个月以来固定时段的新闻视频。由大量实验可知, 同一频道在一段时期内的新闻节目编排方式基本类似, 例如一般总是在一段固定时长的片头过后首次出现主持人, 然后开始新闻播报。针对这一特征, 本文的算法可以进一步改进。在镜头检测的基础上, 首先根据口播镜头固定出现时间直接定位第一个主持人镜头, 然后以该镜头特征为模板计算出该镜头与所有其他镜头之间的距离D (i, i0) (i0是第一个主持人镜头对应的序号) 。如式 (4) 所示, 当距离小于等于阈值Δ时, 镜头i的标签Li为1, 则表示该镜头为主持人口播;当距离大于阈值Δ, 则表示该镜头不属于主持人口播。

1.4 新闻单元切分

由于新闻视频具有“口播镜头+新闻故事镜头”的结构特征, 检测出口播镜头后, 本文将一次口播镜头的开始到下一次口播镜头开始之间的片段作为一个新闻单元。如图2所示, 图中的矩形块表示口播镜头, 此时新闻视频被自动切分成4个单元。基于以上算法, 本文开发了软件系统, 实现准确、高效的视频单元切分。用户首先从数据库中载入待切分的新闻视频, 然后直接点击切分图标就能快速得到新闻单元切分的结果。图5是新闻单元切分软件的系统界面, 原图为彩色图片, 其中第一幅图表示从数据库读入的当前待切分的视频列表。第二幅图是软件主界面, 其左侧是视频内容的浏览窗口, 右侧是切分后各新闻单元的关键帧图标, 当用户点击右侧图标时, 能够点播对应单元的新闻内容。主界面下方以彩条方式直观地展示了新闻单元切分的结果, 从左到右按时间顺序进行排列, 其中绿色部分是主持人口播镜头, 可以明显看出口播镜头是交替且多次出现的。本文设计的基于彩条的图形交互工具, 让用户能够方便、直观地观察到视频切分的结果, 并且能够在彩条上以拖动鼠标的方式方便、快速地浏览感兴趣的新闻内容。

2 实验结果及分析

图6给出了更多新闻视频单元切分的结果。可以看出, 本文提出的方法能够准确切分中央、省、市、县等多级电视台的新闻节目, 如新闻联播、杭州新闻、明珠新闻、桐乡新闻等。

本文的实验环境如下:Intel i5-3470 3.4 GHz、16 Gbyte RAM、NVIDIA Geforce GTX 650。对于一个长度为30 min、大小为600×480、码率为1 Mbit/s的视频, 本文提出的方法仅需32 s就能准确计算出切分结果。表1给出了4种不同新闻视频自动切分的算法性能, 可以看出, 本文的方法具有高效性和准确性 (切分的误差主要来自于镜头的渐变) 。此外, 本文的方法能够实现新闻视频的批量切分。用户只需简单交互就能快速地实现大量视频的自动切分, 且切分结果比人工方式具有更高的精度。

3 小结

本文提出了一个基于主持人口播检测的高效方法实现新闻单元自动切分。首先采用基于投影函数的方法检测出新闻视频的镜头边界;然后利用基于相似性传播的方法进行镜头聚类, 并通过分析聚类结果的统计特征提取出所有的主持人口播镜头;最后根据检测出的口播镜头实现新闻单元自动切分。基于以上方法, 本文开发了软件系统实现新闻视频自动切分, 该系统极大地提高了新闻视频切分的效率和质量, 大大减轻了人工劳动强度。本文开发的软件系统已经在浙江广电集团、杭州电视台等单位进行了实际应用, 具有广泛的应用前景。

今后, 笔者将继续深入研究新闻视频单元切分, 考虑新闻中的广告检测。此外, 进一步研究适用于其他类型视频的高效切分方法, 如体育视频、纪录片、综艺节目等, 此时将有更多难题有待研究, 如视频特征表示、关键帧提取、相似性度量等。

参考文献

[1]凌坚, 练益群.新闻单元的自动快速分割方法[J].电视技术, 2009, 33 (7) :59-63.

[2]谢毓湘, 栾悉道, 吴玲达, 等.一种基于解压的镜头探测方法[J].系统工程与电子技术, 2003, 25 (8) :1028-1031.

[3]CHENG M M, ZHANG G X, MITRA N J, et al.Global contrast based salient region detection[C]//Proc.IEEE International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press, 2011:409-416.

[4]唐红梅, 张恒, 高金雍, 等.一种改进的基于SIFT特征的快速匹配算法[J].电视技术, 2013, 37 (15) :25-32.

[5]FREY B J, DUECK D.Clustering by passing messages between data points[J].Science, 2007, 315 (5814) :972-976.

上一篇:层布式钢纤维下一篇:历史风貌保护