互联网

「数据」是互联网商业模式的核心基础

  • by

最近计划优化文献计量分析平台,受制于可用的数据,许多功能无法顺利开发,由此深切感受到数据的重要性。互联网产品的核心价值是传递信息,而实现这一功能的重要前提就是拥有足够多的数据来支撑信息的提取。 文献计量分析平台计划增加更多的数据分析功能,这需要大量的文献数据作为分析基础,特别是引文信息、摘要信息。尽管这些信息都可以在各个期刊网站上查阅到,但如果需要一个免费的数据中心便捷的获取结构化的数据却十分困难。根据目前的调研,大部分论文数据可以在crossref上通过doi信息免费获取,引用关系可以在opencitation获取,但二者并不包含摘要。如果需要真正分析论文的内容,只能求助于知名的摘要数据库,比如Web of Science或者Scopus。而这两家对于免费的数据接口进行了非常多的限制,想要获取完整的摘要数据,需要进行付费商业合作。 而替代方案则是通过爬虫直接访问期刊论文网站直接获取文献信息,但依然存在很多困难 许多期刊网站都增加了反爬虫保护,需要相当大的反「反爬虫」工作量,这样做得不偿失 不同出版社的网站模版并不一致,这也更加增加了论文信息提取的工作量 完成这些调研后发现,看似信息自由流通的互联网,四处充满了信息阀门与高墙。优质的数据是核心商业竞争力,限制数据访问保持核心竞争力是自然而然的事情。例如互联网巨头Google也是通过采集整理几乎整个互联网的数据并提供给用户来起家的,但如果想要通过爬虫抓取Google的数据,则会遭到机器人检查限制访问,毕竟数据是Google的核心竞争力,也是最重要的壁垒。类似的事情例如微信公众号文章和淘宝商品页面,都会严格禁止百度抓取,因此在百度上几乎不可能找到微信公众号文章或者淘宝的商品,这也是微信和淘宝的重要数据壁垒。 当然这种壁垒也并非完全坚不可摧,一种解决方案就是发动众包的力量。回到文献数据, ResearchGate 网站在数据方面就很机智,直接发动所有用户自主上传、完善数据,并在平台内建立了完善的文献数据和社交网络生态。这样的发展方式也非常值得借鉴。 最后总结互联网产品设计时在数据竞争力方面需要思考的问题: 能否提供独特的数据,并与其他人带来竞争优势 如何合法、高效地搜集整理互联网上的数据,增加自己的竞争力 如何保护数据不被三方窃取 如何让数据保持更新、保持价值