视听节目内容识别技术

2024-07-09

视听节目内容识别技术(精选三篇)

视听节目内容识别技术 篇1

“三网融合”是指电信网、广播电视网和计算机通信网的相互渗透、互相兼容,并逐步整合成为统一的信息通信网络。三网融合具有重要的战略意义,它不仅是将现有网络资源有效整合、互联互通,而且会形成新的服务和运营机制,并有利于信息产业结构的优化,以及政策法规的相应变革。

三网融合以后,不仅信息传播、内容和通信服务的方式会发生很大变化,同时企业应用、个人信息消费的具体形态也将会有质的变化。三网融合时代的降临,使传统社会中的一些“瑕疵”有了放大的可能。原本只能在小范围内传播的低俗色情、盗版、反动等有害视听节目信息,通过信息网络就能传播到全世界。如何有效监管和控制这些有害视听节目的传播一直是个全球性的难题,世界各国都在探索一条打击低俗和维护网络自由的平衡之路。

本文围绕视听节目内容识别技术在视听节目内容监管中的应用展开论述,重点介绍了一种先进的视听节目内容识别技术——影视基因技术。影视基因技术是影视基因视听节目指纹专利技术的简称,它就像人体DNA可以鉴定一个人的身份一样,影视基因可以鉴定一部视听节目的身份(包括影片内容、来源信息等)。影视基因技术能把视听节目中的画面、音频、视频等特征提取出来,形成独有的信息序列,并且快速、高效地利用该序列对视听节目进行准确地匹配与识别,从而在视听节目内容监管中发挥重要作用。

1 视听节目内容监管现状研究

在视听节目内容监管中,面临的最大难题和挑战是对视听节目内容的高效、快速识别。传统识别技术比如水印技术和哈希转换技术等在信息网络视听节目识别领域存在较大的局限性或弊端。

1.水印技术

水印是可见或者不可见的图案,能够被嵌入到视听节目中协助版权查证和追踪。但是加水印会改变视听节目内容,影响节目质量,多种水印技术互相之间不兼容,目前存在的大多数视听节目是没有加水印的。因此用水印技术来进行内容识别具有一定的局限性。

2.哈希转换技术

哈希转换技术是一种二进制文件验证技术。它对视听节目内容的编辑,如剪切、压缩等操作都非常敏感,微小的文件变化都会导致哈希值的变化。虽然密码哈希值在数据鉴定和完整性校验中非常有用,但它并不适合用于形态多样的视听节目识别。

这些传统识别技术在识别这些形态多样的视听节目内容上存在缺陷,识别方法效率低下且精度不高,容易遗漏或者误判大量视听节目,因此不是视听节目内容识别的最有效手段。

2 视听节目指纹识别技术概述

视听节目指纹识别技术的出现彻底改变了上述状况,通过视听节目的“指纹”与视听节目样本的“指纹“进行比对,对视听节目内容做出更高效精准的判断。

2.1 视听节目指纹识别技术系统框架

视听节目指纹识别技术是一种软件识别、提取、压缩音视频的技术,可以产生的唯一的“指纹”来代表一个视听节目文件。该技术通过视听节目内容识别技术可以分析出所有视听节目的特征信息,包括音视频流中的关键帧序列、色彩和运动的变化等特征。视听节目指纹识别技术系统架构如图1所示。

基于视听节目指纹识别技术的系统架构由视听节目样本指纹数据库、指纹生成模块、指纹查询模块和结果报告模块组成。

视听节目样本指纹数据库:它可以看作是一个“名单”,其记录的数据有视听节目样本指纹及其相关信息(例如标题、日期、版权信息等)。

指纹生成模块:视听节目通过本模块提取指纹,根据其用途上传至视听节目样本指纹数据库中或者直接向指纹查询模块提交查询任务。

指纹查询模块:通过将未知视听节目的指纹与视听节目样本指纹数据库中的指纹进行匹配和识别。当一个未知视听节目指纹与视听节目样本指纹数据库中的视听节目指纹确定为匹配时,匹配信息就会被系统自动记录下来。

结果报告模块:此模块支持各种预设与自定义报告模式,能以不同的方式及时报告对视听节目样本的识别结果和变化趋势等信息。

2.2 视听节目指纹识别技术创新点

视听节目指纹识别技术采用全新的独特算法与工作方式,通过对视听节目内容的特征提取,有效解决了传统视听节目内容识别技术的盲点,达到了传统技术以及人工识别无法匹敌的精确度和实用性。在视听节目的内容识别领域具有更可靠的应用。其技术的创新性体现在以下几个方面:

高效快速:可随时、快速地从视听节目中提取指纹,并且不会改变视听节目内容本身。

特征稳定:对于同样的视听节目,无论是转换格式、进行剪辑拼接还是被压缩,其指纹基本保持不变,可以高度精准地识别视听节目内容。

全面精确:可同步分析视频和音频,双重对比使得结果更加精确。

2.3 视听节目指纹识别技术发展史

视听节目指纹识别技术的发展大致经历了两个阶段。

第一个阶段是基于图片识别的第一代视听节目内容识别技术。用图片识别技术去分析视听节目的指纹,从原理上也是可行的, 但是分析过程需要花费大量的时间,以一部120分钟的电影为例,电影的帧速率为24fps,包含的图片数据量为172800张,而且也仅能识别视频内容,无法对音频进行识别。

第二阶段是基于图像、音频、时间轴的三维分析技术,即第二代视听节目内容识别技术——视听节目指纹识别技术。

目前最先进的视听节目指纹识别技术是影视基因技术,它可以做到对视听节目内容做出全面、精确的识别。每部视听节目都有其独特的要素,如色彩、动画、伴音等等。影视基因能把视听节目中的画面、音频、视频等特征提取出来,构成一个序列,从而形成该视听节目的影视基因。该序列在视听节目内容识别方面的应用效果非常明显,它可以快速从视听节目里提取这个基因,而丝毫不改变视听节目本身。对于同样视听节目,哪怕经过格式转换,进行过拼接、截取段落等等,其基因本身是基本维持不变的,也就是说即使内容经过一些剪辑、剪切,其基因序列仍然保持一致。此外,影视基因同时实现视频与音频的双重分析,结果更加精确。在匹配精度方面,只要用肉眼能够分辨出来的内容,影视基因就能够匹配出正确的结果。影视基因的提取速度非常快,同时形成的基因文件信息量相当有限,但匹配的精确度却很高。

影视基因技术是完全基于视听节目本身的内容识别技术,即播出的是怎样的节目内容,就会产生怎样的影视基因,和传统的利用数字水印技术进行视听节目识别相比,它不需要对视听节目进行预处理,这就很好地适应了当前视听节目制作与传播的多源头、多路径、多平台的趋势,大大降低了监管的综合成本和难度,显著提高了监管实效。

3 影视基因技术在“三网融合”视听节目监管中的系统实现

影视基因技术已在视听节目播出监管中实现有效应用及成熟的系统部署规划:由于影视基因的高效性和紧凑性,采集和传输的成本很低,我们可以将采集用的监测器部署到各个播出环节。如对于互联网,可以部署到网站,更可以部署到CDN内容递送系统,全面及时获取所有视听节目的内容信息;对传统广播电视等播出信号,通过采集视听节目信息,实时提取指纹以供监测比对。在采集到播出内容的影视基因后,即可将其和已有的视听节目样本指纹库中的信息进行自动实时比对检索,从而掌握其播出的真正内容。

视听节目样本指纹库中的信息来自预先对已有视听节目的登记,可以是合法制作的视听节目,也可以是被举报确认的非法内容。登记的手段可以多种多样,有手工录入,也可以是批量自动处理,甚至自动化的实时播出流录入等等。视听节目样本库的管理采用分布式部署,分布式内容登记,集中管理交换以及分发,即各地市均有独立的比对系统和视听节目样本库,可以自行对视听节目内容进行登记,登记后的内容会自动集中到中央监管中心后再分发到各地市监管中心,以全面、有效、及时地共享视听节目样本库信息。通过自动化的采集,比对检索系统,监管中心可实时看到所有播出系统在平台上的内容播出状况,同时中央监管中心更可以了解到所有地市监管中心的信息。根据预先设定好的管理策略,我们可以灵活、实时地根据当前的播出内容对播出系统、平台实施有效的管理和控制,如记录、报警、通知删除等等。

整个系统工作过程如图2所示,系统由视听节目样本管理系统、备案审核系统以及业务管理系统三大部分组成:

1.视听节目样本管理系统:负责收集和登记所有经过确认的内容,内容可以是合法制作的视听节目(白名单),也可以是被举报确认的非法内容(黑名单)。

2.备案审核系统:利用部署在各播出机构中的监测器采集到的影视基因,在备案的同时进行自动比对检索,实时获知当前正在播出的真实内容。

3.业务管理系统:用于实时监测整个系统的运行情况,生成各种报表以及对各类监管任务进行调配。

从部署实现上,系统采用了中央——地方的多级架构,中央监管中心的主要工作是汇集所有视听节目样本信息,并分发到各地方监管中心,同时管理各地方监管中心的播出、监管流程。通过各级监管中心的管理监测系统,可以直观、实时地了解所管辖区域内的所有播出情况,从而有效实现全方位的实时播出监管。

4 影视基因技术的广泛应用

影视基因技术是一种先进的视听节目内容识别技术,得益于计算机技术的快速发展,影视基因技术已经达到了成熟实用阶段。如图3所示,影视基因已成功应用于广电、电信、公安、文化、互联网等行业的影音内容审核、版权保护、数字出版、广告增值、媒资管理等领域。

影视基因技术在公安系统中的应用包括:网吧、网站的有害视听节目监管,国家骨干POP监管,以及IDC有害信息监管。通过影视基因核心技术进行识别比对,系统自动精确分析定位出有害视听节目内容及其所在的位置,提供给监管部门精准的数据支持和更先进的监管手段,大大提高监管部门对各个网吧视听节目监管的效率。

影视基因技术在广电系统中的应用有视听节目内容监管、网络电视台播放内容监管、有线电视内容监管。各类监管系统均应用了影视基因核心技术,能够实现对互联网视听网站全面地发现和管理。该系统优势在于通过影视基因核心技术对视听节目内容进行精准分析和识别,完成对有害、违规视听节目的判断,并为监管部门提供有害违规视听节目的详细信息。

影视基因技术在版权保护中的应用包括:新媒体版权保护及侵权内容过滤。在2008年北京奥运会期间,影视基因技术成功完成了为奥运史上首次“数字奥运”保驾护航的光荣使命。实现中国新媒体版权保护技术的新飞跃,出色的完成了中国在奥运比赛期间防止节目盗版的任务。

另外,影视基因技术还可应用于手机移动网络的音视频节目的监测、IPTV的内容监测等。

5 结束语

技术改革与创新是三网融合的动力。视听节目内容的有效监管关系到社会的和谐与健康发展。影视基因技术作为一门新兴技术也必将在三网融合的内容监管中发挥越来越大的作用,为国家信息化建设贡献力量。

摘要:随着“三网融合”的推进, 网络内容传播的渠道越来越多, 同时呈爆炸式增长的视听节目具有数量多、源头多、传播快、更新快等特点, 这些都给视听节目的监管提出了新的要求和挑战。本文分析了视听节目内容识别技术在视听节目监管中的重要作用, 并着重介绍一种先进的视听节目内容识别技术——影视基因技术, 论述了其在三网融合中的应用。

视听节目内容识别技术 篇2

1.1 未审批网站搜索

1.1.1 未审批站点(非法站点)的发现

未审批站点搜索引擎(专用搜索引擎)可以通过互联网进行全方位、快速的扫描,以发现网络传播视、音频节目的站点。对发现的视、音频站点,系统要通过统一的接口将信息上传至信息处理层,处理层对这些信息进行分析和组织后,将站点信息存入中央数据库中。未审批站点搜索可以将搜索范围限定在指定领域内(某省份、某地区、某个IP地址段)。以杭州市为例,搜索范围主要集中在杭州市内,并且能够略过已通过广电部门审批可以合法通过互联网传播视、音频节目的站点,最大程度地降低了资源浪费和用户处理工作量。网站信息包含站点域名、IP地址、物理地址、是否为直播站点等相关信息。

1.1.2 未审批站点节目信息分析

搜索引擎能够快速地在网络上搜索信息,智能分析系统可以有效地分析出网站中播放的各种节目的信息,例如,哪些站点提供了直播的节目,站点播放节目的名称等;也可以对站点进行分类,分析出色情、反动等信息的存在。

1.1.3 未审批站点搜索结果信息审核

提供对信息结果的查看和查询功能,查询功能灵活、高效,可根据多种条件进行查询。对搜索到的各种结果和数据提供修改功能,除了域名IP等固定信息外,都可以通过修改功能进行信息校准,并补充现有信息。

1.2 审批网站搜索

智能分析系统可以分析出网站中播放节目的各种信息;可以对站点灵活分类,识别节目内容是否存在违规情况;可以对节目进行类似的可配置分类。通过搜索引擎,可以准确地发现网站上播放的视、音频节目。

1.3 重点网站搜索

系统可以对产生影响较大、访问量较高、节目数量多的视听网站进行重点监控。监控结果可查看重点网站监控的数据,结果中会显示网站名称、网站域名、所在省份、所在城市、节目数等信息。节目信息包括节目标题、节目统一资源定位符(URL)、节目类别、节目网页快照和节目下载情况等信息。重点网站的信息,可灵活地根据不同条件进行查询,灵活制订分类策略,对站点进行分类。

1.4 其他功能介绍

1.4.1 网页快照

提供基于网页数据快照的数据取证功能。系统将搜索时发现的视、音频节目的网页内容中的有效信息存储到本地(去掉大量的图片信息),用户可以将这些网络快照作为历史留存和处罚的证据。

1.4.2 IP地址定位

系统通过国内IP地址信息库提供准确的非法网站物理地址的定位信息、也可以基于非法站点的域名、IP地址发现网站服务器所在的省份、城市,部分可以精确到提供服务器的公司名称1.4.3非法站点警告及反馈

系统提供一个简单的电子邮件自动发送平台,用户可以根据需求对情节非常严重的站点进行电子邮件警告。同时,统会提供技术手段记录警告内容,并且通过日程安排模块提供警告追踪和提醒,综合、全面地进行站点警告、反馈和处理等管理操作,简化管理流程。用户可以通过该模块记录对网站的警告、网站的反馈和与其沟通的过程,有效了解网络的历史遗存问题,掌握第一手管理资料。

互联网视听节目系统架构如图1所示。

2 相关技术浅析

2.1 搜索引擎技术基本原理

2.1.1 网络爬虫

网络爬虫是基于HTTP协议的网络应用程序。通过网页的链接地址来寻找网页,从网站上的某一个页面(通常是首页)开始读取网页内容,并抽取网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,一直循环,直到把这个网站所有网页抓取完为止。

增量式网络爬虫是对下载载网页采取增量式更新或只爬行新产生的、已经发生变化的网页,有效减少了下载量,减少了时间和空间的耗费,提高了视听节目监测系统的效率

2.1.2索引器

索引器的主要功能是分析收集的信息,按照一定的结构将信息组织成有序文件进行存储,并建立相应的URL、网页内容和网页内容偏移等索引。它主要用到的技术有分词、索引词选取、停用词过滤、索引归并、索引压缩、索引更新和倒排文件缓存。

2.1.3 查询器

查询器的主要功能是通过用户接口界面,在本地数据库中查找与用户要查询的内容相匹配的信息,并进行文档与查询相关度的计算,将排序结果以一定的形式返给用户。

2.2 网页分析技术

2.2.1 视频网页搜索和判断

在互联网视听节目监测系统中,搜索引擎的作用就是在网络上搜寻视、音频网页,因为网络上的数据是不断更新的,种类也是不断变化的。搜索引擎首先负责的就是将网络上各种格式(avi,mp3,ram等)的视、音频节目的具体信息搜索下来,其中包括网页地址、浏览量、用户评论和作者信息等。

一般情况下,互联网部分视频网站的视频网页的URL都有较明显的规律可循,通过这些规律,可以简单、快速地判断网页中是否包含视频。例如,土豆网中包含视频的网页主要分为两大类,由单个视频和专辑中的视频组成,其网页URL格式表示如下:

单个视频:http://www.tudou.com/albumplay/……=.tml.

专辑:http://www.tudou.com/list/……=.html.

还有一类视频网页有统一的、有规则的网站,通过正则表达式就可以简单、快速、方便地判断出对应网站内包含的网页是否是视频网页。以土豆网为例,系统可以使用下面定义的正则表达式进行判断:

单个视频:http://www.tudou.com/albumplay/_(.*)=.html.

专辑:http://www.tudou.com/list/_(.*)=.html.

通过网页的URL,使用上述正则表达式匹配成功,则可以认为该网页中包含视频。

2.2.2 网页内容分析

互联网上的大部分资源是主要是超文本标记语言(HTML)网页资源,HTML网页必须通过网页分析、处理后才能用于索引和检索,很多相关的计算都需要解析后的HTML网页,比如网页内容相关度计算、关键词频率计算,等等。HTML网页的分析和处理,主要是初步完成网网页格式的解析,去掉网页中显示格式的控制元素和无意义的标签信息。网页中的多媒体、图片等文件有许多不同的编码格式,一般都是通过链接的锚文本(即链接文本)和相关的文件注释来判断这些文件内容的。另外,还可以通过多媒体文件中的文件属性了解文件的内容

系统对网页内容、编码、类别等作相应的分析、处理:对网页内容进行编码转换,自动对中文编码进行识别、转化,将其他种类的编码类型转换成GBK(即汉字编码“国标”);将繁体字转换成简体字;并取页面的标题、关键词、摘要和其中的超链(Hyper Link)等关键数据生成摘要。

2.2.3 中文分词技术

该系统主要采用基于词典的中分分词算法、基于统计的分词算法和基于语义的分词算法。

基于词典的中文分词算法包含三个要素,即分词词典、字符串匹配原则和文本扫描方向。词典配法通常作为初分手段,其步骤简单,易于实现,且可以正确地切分出包含在词典中的词语,在现实中被广泛使用。

基于统计的中文分词算法是以相邻的字之间共同出现的频率或概率作为基于统计分词方法构建词的基本依据。

视听节目内容识别技术 篇3

0引言

根据中国互联网络信息中心 (CNNIC) 发布的《第34次中国互联网络发展状况统计报告》, 截至2014年12月, 中国网民规模达到6.49亿, 互联网普及率为47.9%。随着网民规模的快速增长和互联网新技术运用的日趋成熟, 视听节目在网络文化内容中占据的比重越来越大。互联网上的视音频节目种类繁多、内容多样, 除了思想健康的节目外, 也存在危害国家安全、淫秽色情、暴力低俗的节目内容。这些节目不仅毒害青少年的身心健康, 对社会环境造成污染, 也阻碍了互联网视听节目服务业的发展。人民群众要求政府依法加强监管的呼声越来越高。但目前对互联网视听节目的监管, 一方面缺乏相应的基础信息数据及相关的传播分析技术, 无法实现有效监管;另一方面, 根据互联网视听节目传播技术建立的各监管系统, 如公共信息视听节目、手机视频、播客视频、QVOD视频、舆情监管系统等, 尚未建立统一的数据共享与业务联动机制, 使得各种监管业务数据分散在各系统中, 而且数据间还存在节目信息重复、数据分散等不利数据挖掘等问题, 业务人员需要面对多个系统进行操作, 工作量繁复。

基于上述问题, 互联网视听节目监管系统的建设需采用最先进的信息获取技术、海量信息处理技术以及视音频分析技术, 对各个监管系统的监管数据进行整合, 完成从信息、应用、业务流程到用户界面的全面集成, 使得监管部门更加准确掌握管辖范围内视听网站各类节目网络传播的数量、动态、范围、影响情况等重要信息。

1系统设计方案

1.1设计思路

系统建设总体目标是构建在各种技术支撑下的互联网视听节目监测系统, 建立统一的海量视听节目信息仓库, 完成从信息采集、信息分析、信息处理、信息业务流程化到用户界面的全面集成, 从而达到对管辖区内互联网视听节目的全面监控目标。系统建设主要包括以下几个方面:

1.信息采集:实现对于互联网视听节目和舆情信息的搜索、采集、记录功能, 针对互联网的多种技术传播方式:公共信息、手机、播客、QVOD、论坛等, 具备全面的信息采集引擎。

2.信息分析与规整:实现对互联网视听节目的监管数据进行全面整合和再分析, 为监管业务人员提供统一的监管业务数据处理结果和统一的业务管理界面。

3.信息检索与发现:结合文本、音频、视频等多种方式, 快速定位目标节目, 满足多方面、多层次的检索需求, 提供高效、准确的检索结果。

4.信息溯源:建立多个互联网视听节目传播分析模块, 实现对视听节目进行网络传播情况的分析, 及时追踪到节目的传播源头。

5.舆情监控:针对区域内的门户网站、论坛BBS、微博等, 采集舆情信息, 并对舆情信息进行归类, 例如广电舆情信息、负面舆情信息进行预警。

6.系统监控:系统可根据监控硬件设备运行状态参数, 比如CPU占用率、内存占用率、硬盘空间使用率等, 得到服务器的工作压力状况, 实现对系统的运行情况进行24小时监控, 确保系统安全稳定运行。

1.2系统架构

互联网视听节目监管系统的软件架构采用模块化设计原则, 每个模块保持一定的功能独立性, 在协同工作时, 通过相互之间的接口完成实际的任务, 模块化设计将各个功能模块有机地结合起来, 在保证正确性和健壮性的基础上, 提高了软件的可扩充性和可复用性。系统架构图如图1所示。

系统架构主要包括三层:分布式节目及网站数据采集层、数据分析处理层、业务功能模块与数据接口层。

1.分布式数据采集层

分布式数据采集层通过采集控制中心, 统一管理数据采集功能。

根据系统的监测目标和技术手段, 数据采集包括互联网视听节目及网站搜索引擎、播客节目搜索引擎、元搜索引擎。各个搜索引擎从功能和业务上相互独立, 从相应的网络/网站中全面获取视听网站及节目信息。

搜索引擎具备采集控制中心, 对搜索引擎的工作进行配置管理。采集控制中心支持网站发现、种子分配、地址解析、文本解析、性能监控等功能, 同时支持应用平台下发的配置指令, 例如节目下载、取证、快照等等。

2.数据分析处理层

数据分析处理层包括数据处理分析模块和数据存储模块。

数据处理分析模块接收分布式数据采集层上传的视听节目信息, 采用先进的全文自然语言分析技术和分词技术进行数据清洗, 获取数据的元信息, 并对视听节目进行节目归类、排重、关联分析, 根据上层应用配置的规则, 对节目进行规则匹配、关键帧抽取等操作, 结合上层应用的数据业务处理后, 对数据进行深度分析、汇总和统计, 并存入数据库和磁盘阵列上。

数据存储模块包括数据库DBMS存储方式和文件存储方式, 经过数据归一化处理后, 可在磁盘阵列上统一存储。

3.功能模块与接口层

功能模块与接口层采用目前流行的B/S架构, 以WEB网页形式将各个功能进行展示。用户通过WEB浏览器对系统进行登录和访问, 根据权限调用不同功能模块, 实时开展网上监管工作, 掌握系统运行数据。

通过建立监督管理体系和数据资源中心, 有效提高针对网络视听节目的技术监控能力, 做到网络视听的全面监控、业务流程管理一体化、数据资源共享化。

1.3工作流程和业务流程

互联网视听节目监管系统具备对持证网站和无证网站视听节目监测能力, 能对敏感节目、播客节目进行监测, 同时能对视听节目内容进行分析。系统主要工作流程如图2所示。

互联网视听节目监管的业务流程采用数据结合业务全面整合的管理方式。业务处理流程如图3所示。

1.采集

系统的数据搜索引擎支持对互联网的公共、QVOD等多种视听网站的视听节目进行搜索采集, 并统一进行记录和整理, 制订归一化数据接口标准。

2.分析取证

系统结合文本分析、视音频分析技术, 从海量数据中快速准确地发现疑似违规视听节目, 提供给监管人员进行审核和取证。

3.定位

系统对确认的违规视听节目进行定位, 确定其传播主体及其相关信息, 提供信息完整的按键核查单发送功能, 无纸化办公的管控措施。

4.处理

相关执法部门结合互联网视听节目综合管理平台提供的案件核查单, 对违规节目进行有效封堵, 系统持续跟踪验证封堵效果, 实现了业务流程一体化进程。

2系统功能

互联网视听节目监管平台主要实现互联网 (含移动互联网) 视音频监控、统一的数据接口规范、数据整合、敏感信息与专项任务处理、系统报表管理等。主要功能如下:

1.网站实时监控

由未批网站监控、审批网站监控、重点网站监控等子模块组成。

未批网站监控对境内互联网网站进行监控, 及时发现提供视听节目服务的网站, 显示未持证网站的各种信息, 对相关的网站的基本信息进行分类和查询;可以按照不同的分类标准对相关网站进行分类;对获得的网站信息进行排重;可以采用信息检索技术, 检索相应的网站文本信息和视音频内容;获取未持证网站详细的节目列表信息。

在监控结果查看中显示未审批网站监控结果数据, 显示网站名称、网站域名、网站类别、发现时间、省份、城市、节目数、ICP等信息, 节目信息包括节目标题、节目URL等信息。

对于未审批并提供视听节目服务的网站管理员发送整改通知单, 要求定期整改。整改通知单中明确指明网站违反的条例和规定, 列出网站信息上报服务器的地址, 要求在指点时间内上报整改情况。

审批网站监控主要对经过广电部门审批的网站进行监控, 提供审批网站登记、修改的管理平台, 用户可以对审批通过并提供互联网视听节目服务的网站进行管理。监控结果查看显示审批网站监控的结果数据, 显示网站名称、网站域名、省份、城市、节目数等信息, 节目信息包括节目标题、节目URL等信息。

重点网站监控主要对传播影响范围广的网站进行监控, 系统提供重点网站管理平台, 用户可以对重点网站进行管理。监控结果查看显示中重点网站监控的结果数据, 显示网站名称、网站域名、省份、城市、节目数等信息, 节目信息包括节目标题、节目URL等信息。

2.网站信息管理

网站信息管理不仅包含静态的网站信息, 同时对网站的违规历史情况进行记录, 对于网站的申报业务情况进行历史记录, 对于网站的备案变化情况、IP地址变化情况都进行详细统计记录, 从而形成网站的卷宗管理, 更加丰富了网站相关的信息, 方便快捷地为各级监管部门详细展示了网站的基础信息、网站的发展状况、网站的健康指标。

3.违规节目URL封堵验证

对违规处理的节目URL进行验证, 检查这些节目URL是否失效, 对于封堵失败的节目进行自动跟踪验证, 封堵成功后系统自动对于节目进行封堵状态修改, 对验证的结果进行人工审核检查。

4.节目取证

对系统发现的视音频节目进行管理、下载, 方便用户查询节目信息。对于互联网上的视频节目进行定制下载和录制, 下载符合指定条件的视频节目, 从视频中截取基于场景的图片, 形成视频节目的可视化摘要。对节目所在页面进行拍照存储, 并在本地保存一段时间范围内的视频数据, 确保即使在网站删除视频内容或网站无法访问的情况下也能完成证据的保全。

5.编报分析

主要对搜索服务器返回的数据进行分析、挖掘和处理, 通过图形化的界面显示数据信息, 显示每天、每周、每个月、一年的统计信息。通过报表能够直观地看到未批网站、审批网站、重点网站的监控情况。报表分为文字报表、图形报表, 并添加电子印章。

6.文本检索

输入节目关键词, 快速检索到包含关键词的节目和具体的网站, 包括节目信息、网站信息、网站URL、ICP证号等。

7.图像检索

系统支持图片样本的录入, 图片样本录入后, 系统自动检索节目库中的视音频文件内容, 对包含该图片样本的视音频文件进行准确定位。

8.视音频检索

系统支持视/音频片段的录入, 视/音频片段录入后, 系统自动检索节目库中的视音频文件内容, 对包含该视/音频样本的视音频文件进行准确定位。

9.关键字检索

针对用户关心关键词信息, 是否出现在视听节目中, 系统提供文本检出功能。支持用户录入关键词信息, 系统自动检索节目库中的视音频文件内容, 对包含该文本音频信息的视音频文件进行准确定位。

10.节目分布情况分析

系统能对于搜索到节目进行排重和聚类, 对于视听节目进行深度分析, 从二维角度获取节目传播的广度, 节目在一个网站上相似数, 一个节目在不同网站上分布情况, 同时生成节目分布图。

11.快速发现

根据系统应用和业务需求, 设置快速发现功能, 提供用户一个直接的元搜索入口, 能够根据用户的搜索关键字, 采用垂直搜索策略, 充分利用互联网现有搜索引擎资源, 直接从互联网中快速发现相关视听网站和节目。

12.敏感信息处理

根据前期设定的节目关键词进行常规的搜索, 根据所相关的规定对于节目进行自动的分类, 并且对违规的节目关键字进行配置管理, 根据设定的关键词进行自动的搜索节目。对于搜索发现的不良节目, 可以进行审核, 对于审核为违规的节目, 进行自动的统计、分类, 并且能够随时导出打印功能。

13.色情节目识别

针对色情视音频节目中音响、图像特征的特殊性, 系统支持对视听节目进行自动分析, 发现是否存在色情声音、图像。

14.专项任务制定

能够监管任务要求制定专项任务, 并对专项任务进行优先处理, 在制定时间段内, 定时采用元搜索方式, 最大范围的搜索相关节目信息, 实时监控违规节目信息, 发现网络传播的特定任务相关的节目信息。对发现的结果信息进行审核处理。

15.公共信息网络音视频节目监控

实现最新情况统计、封堵验证、网站监控、节目取证、编报分析、文本检索、敏感信息、专项任务、综合管理、未审批网站地图功能。

16.敏感信息与专项任务处理

采用节目文本关键字匹配与分类技术负责将专项任务中

关信息进行比对, 识别其敏感度, 例如查看节目的点击数、评论数是否高于设定的阈值, 是否为网站推荐节目等, 确定为敏感节目后同样负责存入敏感视听节目库。

17.系统报表管理

整合相关数据, 提供图文结合报表。报表统计各个时间的网站情况、节目情况、网站地点分布情况, 报表按类型分为日报、周报、月报、年报;每一种报表会生成相应的柱形统计图, 直观体现数据。

系统产生关键字监管状况日志报表, 反映出一段时间对视听节目的监管情况。

3关键技术

3.1信息获取技术

系统具有分布式采集技术研究, 对新闻、论坛、微博、播客、微信、手机APP、境外媒体等互联网新媒体具有文本、图片、音视频节目采集和分析能力, 针对需要登录的网站、验证码、AJAX等技术特点都进行突破。

1.分布式并行采集技术

系统搜索引擎采用分布式、并行负载均衡技术, 通过多级任务部署可以充分利用搜索引擎资源, 支持深度广度相结合的搜索策略。

2.元搜索技术

元搜索引擎同时一次性提交多个搜索任务至多个搜索引擎, 全网多方位获取相关信息。

3.垂直搜索技术

系统采用广电定制搜索技术, 能够快速发现并采集互联网中传播的视听节目。

3.2海量信息处理技术

系统支持基于HADOOP海量数据平台, 不少于3亿条数据量。检索和统计一般可以几秒完成运算, 并支持分布式计算能力。

1.节目信息预处理

主要包括:全文采集、自然语言分析、分词提取技术和元信息提取。

2.节目分类技术

系统采用基于向量空间模型的主题分类方法, 对视听节目页面信息的上下文内容进行智能分类和过滤。

3.节目重排技术

采用先进的链接检测机制和特征串检测冗余。

3.3视音频分析技术

1.视音频片段检出

针对视音频文件片段样本的自动识别检出技术。

2.图片检索

针对图片样本的自动检出技术。

3.关键帧提取

先进的特征提取和视频帧聚类技术, 从每个镜头中提取最具代表性的图像帧, 全面的反应镜头内容。

4.镜头切分

采用先进的镜头边境检测算法, 针对海量视频数据进行自动镜头识别。对筛选出来的镜头进行严格的边界检测算法。

4结束语

互联网视听节目监管系统的建立有利于实现网络视听节目监管管理的科学化和规范化, 有利于网络视听节目的健康、稳定的传播和发展, 能够为安全播出的监管和决策提供重要依据, 是广电主管部门履行监管职能的重要手段。本文可为互联网视听节目监管系统的建设提供技术参考。

摘要:本文采用先进的信息获取技术、海量信息处理技术以及视音频分析技术, 对互联网视听节目监管系统的监管数据进行整合, 完成了从信息、应用、业务流程到用户界面的全面集成, 使得监管部门能够更加准确掌握管辖范围内视听网站各类节目网络传播的数量、动态、范围、影响情况等重要信息。

关键词:互联网,视听节目,监管

参考文献

[1]叶昆.互联网视听节目监管系统简介[J].大众科技, 2009 (10) .

[2]李晓东, 王仝杰.互联网视听节目监管的关键技术及系统简介[J].广播与电视技术, 2008 (4) :52-54.

上一篇:运用排比下一篇:住房保障支出