导语:科技新闻聚合网站techmeme创始人加布·里维拉(Gabe Rivera)今天撰文阐述了利用计算机自动抓取新闻的不足之处,并表示,techmeme已经聘请美国科技记者梅根·麦卡锡(Megan McCarthy)担任编辑,对新闻进行人工干预,向用户提供高质量的科技新闻。
自动抓取新闻算法不可避免地存在问题。尽管速度很快,但自动抓取新闻算法却经常闹笑话。例如,美国名模安娜·尼可·史密斯(Anna Nicole Smith)死亡后,使用自动抓取新闻算法的新闻聚合网站上仍然出现她在住院治疗的新闻。
新闻组织软件的一个基本功能是判断两条新闻是否属于“相关新闻”,但这通常并非易事。如果两则新闻都包含有指向对方的超链,或者都多次出现“Apple”、“Psystar”、“DMCA”,它们就是“相关新闻”。但大多数情况下两则新闻的关联信息很模糊,即使最先进的算法也很难做出正确判断,就会出现将“风马牛不相及”的两则新闻列为“相关新闻”的情况。另外,自动抓取新闻算法还存在不能很好地处理“最新新闻”的问题。
Techmeme早在2005年就意识到,理想的新闻聚合网站应当采用“自动+人工”混合模式,尽管制定了相应计划,却一直没有付诸实施。“自动+人工”混合模式能够更有效地处理新闻,弥补人或计算机的不足。Techmeme采用这种混合模式的目的是向用户提供最有用的新闻。过时新闻会被迅速删除,“最新新闻”和“相关新闻”的处理也将得到改进。
Techmeme上个月聘请麦卡锡帮助完成人工编辑工作。麦卡锡曾在《连线》杂志工作过。Techmeme对新闻进行人工干预,目的是提高新闻的准确性,不会影响公正性。
Techmeme简介
成立于2005年的Techmeme是一家科技新闻聚合站点,被许多人认为是博客圈的“科技新闻日报”,其发布的新闻通常比《纽约时报》等报纸要提前数天时间。
techmeme不断访问博客及其它新闻站点,把科技新闻综合到一起。techmeme全部利用计算机自动抓取新闻,2007年11月前,除了里维拉,techmeme没有其他员工。
|
相关推荐
|

好文我顶(
好文我顶(
收藏
RSS





