目前有很多数据采集云平台,如百度统计,腾讯统计、乐驰云采集等等,还有一些平台也非常不错:
一. 友盟+
支持移动端和web端数据采集,个性化场景数据定制采集方案。官网给的一些demo可以参考来设计大数据的分析展现,例如:
友盟的:
百度的:
值得借鉴~
二. 乐驰云采集
以高性能分布式采集、存储为核心,建立分工明确的功能模块进行高度协作,融合打码、分词、代理、排重等实用性服务,帮助用户以最低成本、最少人力、最高效率完成大数据应用开发,从而满足当下广大中小企业对“实时、高难、海量”级大数据业务场景的根本需求。
#tabcon_4
值得一看
三. 火车采集器
火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十二年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。
对于网站采集数据的主流实现方式是通过javascript脚本引入,记录页面动作与变化,搜集数据后作为参数,通过gif图片(gif图片格式请求可以解决跨域问题)请求上报。
比如一些大型网站,可以看到他们的数据采集方式:如淘宝,百度,京东,聚划算等
个人设计的web采集数据方案:
lg.js脚本引入页面中通过gif图片请求到后端服务器服务器记录请求参数到日志文件日志文件实时抓取到消息队列实时计算系统消费队列消息,完成分析整理分析结果入es,kibana二次开发展示es历史数据入hadoop