1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;
2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);
3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;
4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令(见图三)。

它们分别是:
/<SPAN STYLE=“DISPLAY:NONE”/>*/</SPAN/>
及/<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”/>*/</FONT/>
其中替换栏处为空,目的是将所涉及文字全部去除。
5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;
6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了(如图四);

提示
不同的网站会加入不同的干扰文字,但其原理大多是一样的,通常都是通过<SPAN>、<FONT>等HTML语言代码的特殊语法来实现的,读者只要稍微分析一下就能找出它们的共同点及相应的处理方法。
ULTRAEDIT是很强的文本编辑软件且受到许多电脑用户的推崇,但当用它来处理上述操作时需注意先在“高级”-》“设置”-》“常规”框中选中“允许输入低值ASCII码”项(如图五),以在查找替换操作中启用程序的控制字符识别功能。

文:李继坤
- 推荐阅讯
- 教你用word 2007制作一个封面
- 用Word XP绘制流程图
- 轻松自在,Word全角半角来回转
- Word入门动画教程43:复制文本
- 满足个性化的需求 Word打开更贴心
- Word入门教程:设置背景
- 用Word的“编辑图片”功能制作错别字
- Word 2007博客功能使用教程
- 使用Office Word小心泄露个人隐私
- 技巧 实战修复被破坏的Word文档
- 阅读排行
- 1.Word入门教程之编辑脚注和尾注
- 2.Word中插入cad图的技巧大放送
- 3.Word公式编辑器快速上手指南
- 4.揪出Office Word 工具中隐藏的秘密
- 5.彻底删除微软Office文档的隐藏信息
- 6.MS-Office Word超链接常用技巧放送
- 7.闪电般的破解 5秒斩杀Word文档密码
- 8.活用Word画图功能 做出逼真的五星红旗
- 9.教你Word操作中一些很少用到的小技巧
- 10.Word入门动画教程91:插入分隔符
- 专题教程
- Windows Server-Windows Server文档-Windows Server新闻-Windows Ser PostgreSQL-PostgreSQL文档-PostgreSQL新闻-PostgreSQL专家
- WebLogic-WebLogic文档-WebLogic新闻-WebLogic专家 FreeBSD-FreeBSD文档-FreeBSD新闻-FreeBSD专家
- Linux-内核 GUI KDE Gnome DNS FTP 安全 安装-Linux专区 Windows-AD IIS ServerCore 虚拟化 安全 HPC-Windows专区
- 大话G游 专题:手机病毒揭密
- ARP攻击防范与解决方案 路由故障处理手册
