岗位职责:
1、设计、开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;
2、优化数据库结构,确保数据的有效性、严谨性、高性能;
3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;提升平台的抓取效率;
4、实时监控爬虫的进度和警报反馈,并处理爬虫异常;
5、分析爬虫系统瓶颈设计实现相应策略和算法,提升爬虫的抓取效率和质量。持续进行算法和策略优化,提升爬虫的抓取效率和质量;
6、参与业务蓝图设计、业务需求、系统设计、代码规范等评审工作;
7、参与系统架构设计,参与核心功能模块的设计及开发,编写设计文档;
8、编写开发文档、系统更新、维护相关文档及用户操作手册、系统维护手册等文档;
9、参与软件功能流程、系统交互逻辑、系统压力、安全等测试,并解决测试问题。
岗位要求:
1、 大专以上学历,3年以上数据开发经验(本科2年以上);
2、熟练Linux系统及Shell;熟练Python、Java开发语言;
3、熟悉Hadoop、Spark技术;
4、熟悉Mysql、SQLserver、PostgreSql数据库,熟练搭建数据库服务器及集群服务;
5、熟悉Redis、Memcache、MongoDB等NoSQL缓存技术;
6、掌握多种解析工具Xpath、Beautifulsoup、pyspider,熟练IP代理,熟悉Hadoop;
7、有 Storm/Spark streaming/Flink 等分布式流计算经验者优先,有 Scrapy / Pyspider / Nutch / Heritrix 框架的使用经验或自己手写过类似框架优先;
8、熟悉 Dubbo、Redis、MQ、ZK 分布式系统的设计和应用,对 IO、多线程有扎实理解;
9、精通API接口对接、高效对接相关业务系统;
10、有数据清洗、数据加工工作经验;有过数据库调优和海量数据存储经验;
11、对数据敏感,精通数据抓取原理及技术,有数据爬取及防爬实战经验;
12、具备良好的代码编写习惯及较强的文档书写能力,有撰写详细的编码注释的习惯,逻辑思维能力强。
邮件发送成功
订阅失败
您的订阅已超过上限,如需继续订阅,请在 订阅管理 中至少停用1条订阅。
查看地图
前往高德地图查看
使用微信“扫一扫”
打开网页后点击右上角“分享按钮