岗位职责:
1.设计、开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;
2.优化数据库结构,确保数据的有效性、严谨性、高性能;
3.参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;提升平台的抓取效率;
4.实时监控爬虫的进度和警报反馈,并处理爬虫异常;
5.分析爬虫系统瓶颈设计实现相应策略和算法,提升爬虫的抓取效率和质量。持续进行算法和策略优化,提升爬虫的抓取效率和质量;
6.参与业务蓝图设计、业务需求、系统设计、代码规范等评审工作;
7.参与系统架构设计,参与核心功能模块的设计及开发,编写设计文档;
8.编写开发文档、系统更新、维护相关文档及用户操作手册、系统维护手册等文档;
9.参与软件功能流程、系统交互逻辑、系统压力、安全等测试,并解决测试问题。
任职要求:
1. 大专以上学历,3年以上数据开发经验(本科2年以上);
2.熟练Linux系统及Shell;熟练Python、Java开发语言;
3.熟悉Hadoop、Spark技术;
4.熟悉Mysql、SQLserver、PostgreSql数据库,熟练搭建数据库服务器及集群服务;
5.熟悉Redis、Memcache、MongoDB等NoSQL缓存技术;
6.掌握多种解析工具Xpath、Beautifulsoup、pyspider,熟练IP代理,熟悉Hadoop;
7.有 Storm/Spark streaming/Flink 等分布式流计算经验者优先,有 Scrapy / Pyspider / Nutch / Heritrix 框架的使用经验或自己手写过类似框架优先;
8.熟悉 Dubbo、Redis、MQ、ZK 分布式系统的设计和应用,对 IO、多线程有扎实理解;
9.精通API接口对接、高效对接相关业务系统;
10.有数据清洗、数据加工工作经验;有过数据库调优和海量数据存储经验;
11.对数据敏感,精通数据抓取原理及技术,有数据爬取及防爬实战经验;
12.具备良好的代码编写习惯及较强的文档书写能力,有撰写详细的编码注释的习惯,逻辑思维能力强。
邮件发送成功
订阅失败
您的订阅已超过上限,如需继续订阅,请在 订阅管理 中至少停用1条订阅。
查看地图
前往高德地图查看
使用微信“扫一扫”
打开网页后点击右上角“分享按钮