互联网已成为最大的信息中心。如何在纷繁复杂的信息中,快速获取有用的信息?传统的方式是通过报纸、杂志收集或通过Google、百度进行检索。但Google、百度的信息不及时且内容检索的不准确,同样限制了快速获取有用的信息;那如何才能解决上述问题呢?我们的答案是通过TopNetRadar网络雷达系统。
TopNetRadar网络雷达系统能实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,最终将最新内容及时发布出来,实现统一的信息导航功能,同时提供包括全文检索、日期检索、范围检索、标题检索、URL检索等在内的全方位信息查询手段。
• 强大的信息采集功能
TopNetRadar提供强大的网站实时监控和信息采集功能,其中包括:web服务架构,用户可方便的通过浏览器配置采集的目标站点或页面;采用多线程并发搜索技术,采集过程高效准确;提供高效的更新手段, 已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页;并且用户可方便设定信息监控的时间周期,支持各种定时更新方法,可定义到分秒级。
TopNetRadar支持按内容对采集的网页信息进行自动排重,实现不重复新闻发布;支持表单登陆,可抓取需用户登陆才能访问的网站;系统引入页码变量,可有效采集按一定翻页规则从数据库发布出来的信息;可抓取网页内的图片;支持BIG5内码网页自动转换为GBK统一管理;支持Unicode内码网页自动转换为GBK;采集过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。
• 基于模板的内容抽取技术
每个网站可根据网站的特点,定义网页的特征;TopNetRadar根据模板,可准确抽取出网页的标题、正文、图片;系统自动过滤网页中的广告和JavaScript。
• XML为传输核心的内容存储
TopNetRadar自动将网页的标题、正文、时间等生成XML;采用内容存储适配器,根据客户需要存储到客户的自定义数据库、XML文件或知识库。
• 实时信息采集
TopNetRadar实时信息采集模块实现对目标网站的信息进行实时监控,并把最新的网页及时采集到本地,进行内容分析和过滤等操作。采集模块的工作结果形成了新网页的全部信息集合,每个网页的详细信息被完整记录下来,包括网页名称、大小、日期、标题、文字内容等。
实时信息采集模块采集到的网页信息可以根据应用的具体需求存储到不同的目标上。比如直接存储到文件系统中,或存储到关系数据库中,用户可以根据实际需要设定存储目标。
• 检索
TopNetRadar检索模块包括普通检索和高级检索,详细分为全文检索,日期(范围)检索,标题检索,URL 检索;同时检索范围大,可根据关键字达到快速匹配,高效准确的找到您需要的信息。
• WEB发布
TopNetRadar的Web发布模块实现网页信息的统一发布,导航和检索功能。利用Web发布模块,不但可以自动将采集到的信息不断发布到网站上,而且也可以由系统维护人员人工控制发布的信息,系统维护人员可以控制的范围包括所发布的栏目(频道)、专题、以及每一个网页。信息的自动发布或是人工发布可以由系统维护人员自由切换。
• 网站新闻系统
网站要及时的发布新闻,传统的方式是通过人工或百度、Google等去互联网上查找,将网页拷贝到网站的新闻系统中,费时费力;采用TopNetRadar设置监控网站,自动将信息抓取到新闻系统中,进行编辑、审核、发布。
• 竞争情报系统
商场如站场。在现代信息经济的商业竞争中,对市场、自身、竞争对手、行业趋势、国家政策等情报的全面和及时掌握也同样决定着企业的兴衰成败。如何能实时跟踪竞争对手的情况?TopNetRadar可以及时通过Internet跟踪、扫描到对手的情况,确保“知彼知己”。
同时TopNetRadar在网络新闻监测和分析、信息安全检查和过滤、增值信息服务中的信息采集和加工等领域中均有广泛应用。
• 中华人民共和国驻纽约总领事馆
• 廊坊人民广播电台
• 中华通信集团公司