主题提取
由于各种不可抗拒的因素,“数据丰富,知识缺乏”这一问题越来越突出:当我们通过WEB 浏览网页时,会发现并不是所有呈现在屏幕的信息都与主题相关,它通常包含着大量的广告、导航、版权信息以及各种交互式操作接口(如:调查问卷等)。这些与主题无关的信息不仅造成了用户信息浏览的负担,还给基于网页主题内容的应用系统(如搜索引擎等)带来了实施和开发上的困难。因此,能够快速准确的提取网页的主题内容是一项基于WEB 内容应用服务的关键技术。它不但能提高各种基于内容服务的应用系统的准确性,还能大大的提升其工作效率,同时还更直接的减轻了用户信息浏览的负担。
因此在这里介绍一下,我读研期间写的第一个程序。
功能描述:输入新闻网页的URL(html code, file path, stream 等),输出与网页主题相关的图片,文字(包括标题与正文内容)。
应用背景(包括但不仅限于以下内容):移动终端(尤其是非智能手机)作为互联网接入设备给人们带来便捷的同时,也伴随着诸多问题:
- 屏幕小,用户浏览、定位信息需要不断地移动屏幕窗口;
- 处理能力有限,对于复杂页面的呈现效果不佳;
- 网络状况不稳定,给用户浏览体验带来了极大的损害等。
这些问题可以归结为一点,那便是——现有的WEB 页面无法直接的在手机等移动设备中正常显示。而重新建立对应的WAP 站点,则只适合新建的网络资源,对于大量已经存在的WEB 资源,则显得费时费力。
我们不难发现:互联网上存在着大量的文本信息,它们绝大多数都以新闻页面的形态而存在。以新浪新闻为例,一个普通的新闻网页真正的主题只占到网页数据数据大小的1%(都不到)。我国GPRS 2.5G的移动互联网,其实测下行带宽在20KB/s 左右。800KB 的数据在没有经过Gzip / deflate压缩的情况下,用户至少需要35秒左右才能完整的接收。即使是目前的3G 网络,实测下行数据带宽也只稳定在100KB/s 左右,完整地接收数据所需的时间则刚刚压在了用户容忍域的边界(国际上认为1s-8s是一个等待容忍范围)。可以预见的是,一旦遇到网络不稳,上述情况则会更为糟糕。针对上述的分析,本程序结合HTML网页自身的特点,直接提取目标页面的标题和主题相关的内容(包括图片及文字),并根据客户端屏幕的尺寸返回尽可能简洁的信息给用户。该方法既不依附于特定的软、硬件,也不依赖于特定的网页模版,更重要的是,还能节省用户的网络流量。
程序演示:
视频分为两个片段,第一个片段是直接输入URL 进行访问。我们可以清楚的看到,在电脑上使用IE 6访问某网站首页都显得加载吃力。而手机模拟器则直接告诉用户“document are too large”…
第2个片段则通过本程序进行访问。我们看到网站首页变得更适合小屏幕手机进行阅读,而内容页则显得更简洁有效了。
程序地址:点击这里
你可以通过上面的地址,亲自体验本程序。(如:在程序的inputbox 填入http://news.sina.com.cn/c/2011-08-07/031222947518.shtml,点浏览,然后对比直接浏览的效果。)
相关说明图解:
Q&A:
-上面的转换地址打不开?
答:很有可能是学校网络的问题,请过一段时间再访问。
-为什么输入baidu,google 这些地址,程序都不进行转换操作?
答:个人认为搜索引擎的页面设计足够简洁,几乎不需要转换
-为什么输入taobao,工商银行的地址,程序都不进行转换操作?
答:安全因素。作为用户,你敢在操作银行交易时还使用第三方代理吗。
最后需要说明的是,本程序主要针对新闻网页有较好的提取效果。其他类型的网页,并不在本程序的有效处理范围内。