百度新闻的索引机制
发布时间:2006-08-03 15:22:28 来源:百度空间 网友评论 0 条
·百度新闻(http://news.baidu.com)是一个完全没有编辑存在的新闻阅读、检索平台。它通过抓取众多的新闻网站发布的新闻提供集成式的新闻服务。这样的好处在于:节约时间。大概每天花费半小时内就能够纵览天下大事要闻。从百度历史新闻服务(http://news.baidu.com/history.html)当中,我们可以追溯到2003年11月4日,因此,可以推断百度新闻早在2003年之前就推出了新闻服务。
·百度新闻收录了广泛的网络新闻媒体。这个列表当中,显示了部分收录的重要新闻源网站(http://www.baidu.com/search/resources.html)。在这些新闻源网站中,有些新闻源网站是百度新闻收录的,有些是用户推荐的。基本上,所有的新闻源站点可以分为四个类别:专业新闻网站和地方信息港、专业及行业网站、政府及组织网站、报刊杂志及广播电视媒体。如果你想推荐较好的新闻源网站,可以直接发邮件告诉他们(news@baidu.com),询问他们是否能够收录。
·百度新闻的另一个特点是:客观。它将抓取的新闻进行“聚类处理”,将话题相同的新闻划分到同一个“新闻簇”当中,也就是首页上显示的“XX条相关”。例如,有100家媒体都在报道“中国女足夺得亚洲杯冠军”的新闻,此时,百度新闻会将所有的100篇报道“聚类”为一个“新闻簇”,并显示在首页上,这样,用户能够看到多媒体、多角度的新闻报道,从一定程度上抑制了新闻固有的偏见性质。
·每一个“聚类”的新闻簇会选出其中的一条新闻显示在首页上。如果想要你撰写的文章出现在首页上,那请保证所撰写新闻的时效性、原创性和转载率。否则,那些陈旧的新闻是不会出现在首页上的。
·越重要的新闻被转载的次数也是越多的。百度新闻会自动的判断哪些新闻属于“相同新闻”,并将这些相同新闻聚集在一起,显示为“XXX条相同新闻”。从这些相同新闻中,百度新闻会尽可能的选取那些原创的新闻,尽管有时出现过错误,但总体上还是比较准确。
·一旦你的新闻网站被百度新闻收录了,想要使更多的新闻出现在百度首页上?百度新闻几乎很客观的对待每一个新闻源网站,可能在“背后”存在/不存在某些算法的排名。但新闻编辑必须保证新闻的原创性、转载率和时效性。其次,所撰写的新闻必须是符合当前时事热点的,也就是和百度新闻首页上那些“新闻簇”的话题是一致的。讨论大多数人都在讨论的事情,会使你的新闻有更大的几率出现在首页上。
·在百度新闻当中,每一条新闻的链接都是直接指向这片文章的,给各个新闻媒体网站带去流量。也就是说,这些新闻媒体网站被百度索引的篇数越多,带去的流量也就越大。
·百度新闻的抓取“蜘蛛”(spider)并不是想象的那么聪明。它有时候也会犯错误,例如,将新闻的标题、正文内容弄错了,把新闻发布的时间弄错了。而不幸的是,这些弄错的信息将会影响新闻文章的质量和登上首页的几率。为了减少这些错误,并且尽可能快的告诉百度新闻我撰写了一篇新文章,你可以试试“新闻开放协议”,按照开放的XML格式组织新闻内容,及时的将新撰写的文章纳入百度新闻搜索、传播给读者。
·百度新闻尊重原创的新闻。有很多优秀的新闻被其它的网站大量转载。百度新闻承诺将以更大的几率展现这些原创的新闻。通常情况来看,每天发布的新闻量较大的门户网站,原创新闻的数量也较多,例如:新浪、新华网等。
·如果新闻正文中有图片,百度新闻会自动的生成这张图片的“缩小版”,并显示在新闻标题的前面。用户不论点击图片还是新闻标题链接,都将直接进入新闻正文的页面。
·百度新闻到底索引了多少个新闻网站?——只有百度自己知道。帮助页面中显示:“覆盖1000多个互联网新闻源”。也许,这个数据是不断的在变化当中,老的新闻网站将会被淘汰,新的网站将会被加入,形成一个循环过程,但可以肯定的是,至少在1000个以上。
·新闻讲究时效性,百度新闻也不例外。首页上的焦点新闻是“由机器每5分钟自动选取更新”,并且有意思的是,随着一天当中时间的推移,那些后发布的、时效性较强的热点新闻会慢慢替换那些较早发布的新闻,从而保证了我们每时每刻看到的都是新鲜的文章。
·百度新闻已经称为了众多媒体从业人员、公司管理人员、专业营销人员到Blogger的信息获取工具,他们有一些很有趣的用法,可以参考看看这里。
·百度新闻提供邮件和RSS两种方式订阅新闻。百度新闻根据用户订阅的关键词,从索引库中自动筛选最相关的若干条新闻,主动发送给用户。很多情况下,人们喜欢订阅公司名、明星的名字和重要的事件。
·百度在2006年还推出了一项所谓“新闻专题”的功能,它可以根据关键词,去自动地全方位网罗各种和此关键词相关新闻报道,例如,和“奥运”相关近期各种热门新闻行涵盖“场馆建设、北京、开幕式”等方面。尽管在准确率等方面还有待提升,但这种技术还是令人眼前一亮的。
- 推荐阅讯
- 业余人士也专业 个人建站流程全接触
- 网赚315 部分网赚骗子公司黑名单
- 创建优秀网页的6个好习惯
- 圈钱?“网站+特许加盟”模式的研究
- 建站常识:如何使用FTP连接虚拟主机?
- 什么是域名注册、域名解析、什么是DNS?
- 百度的seo技术比雅虎厉害多了
- 行业网站设计心得
- 仿SourceForge Google正式推出新开源服务
- 如何快速提高网站的PR值
- 阅读排行
- 1.针对搜索引擎的页面优化一:关键词优化
- 2.网站的搜索引擎优化(SEO)九大秘法
- 3.ALEXA站长全攻略
- 4.一个网站的灵魂 打造完美网站的奇招巧技
- 5.让百度重新收录你的网站的有效方法
- 6.休闲一下:我用Google抓拉登的全过程
- 7.建站基础 将网页上传到服务器
- 8.Google Office轮廓愈加清晰 成形指日可待
- 9.10条优秀的网站设计经验
- 10.Google AdSense推收益分享新模式
- 专题教程
- Windows Server-Windows Server文档-Windows Server新闻-Windows Ser PostgreSQL-PostgreSQL文档-PostgreSQL新闻-PostgreSQL专家
- WebLogic-WebLogic文档-WebLogic新闻-WebLogic专家 FreeBSD-FreeBSD文档-FreeBSD新闻-FreeBSD专家
- Linux-内核 GUI KDE Gnome DNS FTP 安全 安装-Linux专区 Windows-AD IIS ServerCore 虚拟化 安全 HPC-Windows专区
- 大话G游 专题:手机病毒揭密
- ARP攻击防范与解决方案 路由故障处理手册
