服务热线:0755-26162999
求职通二维码
人才热线提示每一位求职者:若用人单位存在提供虚假招聘信息、发布虚假招聘广告,以担保或者其他任何名义向求职者收取财物(如办卡费、押金、培训费),扣押或以保管为名索要身份证、毕业证及其他证件等行为,均属违法,请您提高警惕并注意保护个人信息!!
数据(爬虫)数据工程师
  • 薪资面议
  • /本科以上
  • /经验不限
  • /1人
  • /全职
深圳 南山区
2022-09-25更新
举报
职位描述
岗位职责:

1、设计、开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;
2、优化数据库结构,确保数据的有效性、严谨性、高性能;
3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;提升平台的抓取效率;
4、实时监控爬虫的进度和警报反馈,并处理爬虫异常;
5、分析爬虫系统瓶颈设计实现相应策略和算法,提升爬虫的抓取效率和质量。持续进行算法和策略优化,提升爬虫的抓取效率和质量;
6、参与业务蓝图设计、业务需求、系统设计、代码规范等评审工作;
7、参与系统架构设计,参与核心功能模块的设计及开发,编写设计文档;
8、编写开发文档、系统更新、维护相关文档及用户操作手册、系统维护手册等文档;
9、参与软件功能流程、系统交互逻辑、系统压力、安全等测试,并解决测试问题。


任职资格:

1、大专以上学历,3年以上数据开发经验(本科2年以上);
2、熟练Linux系统及Shell;熟练Python、Java开发语言;
3、熟悉Hadoop、Spark技术;
4、熟悉Mysql、SQLserver、PostgreSql数据库,熟练搭建数据库服务器及集群服务;
5、熟悉Redis、Memcache、MongoDB等NoSQL缓存技术;
6、掌握多种解析工具Xpath、Beautifulsoup、pyspider,熟练IP代理,熟悉Hadoop;
7、有 Storm/Spark streaming/Flink 等分布式流计算经验者优先,有 Scrapy / Pyspider / Nutch / Heritrix 框架的使用经验或自己手写过类似框架优先;
8、熟悉 Dubbo、Redis、MQ、ZK 分布式系统的设计和应用,对 IO、多线程有扎实理解;
9、精通API接口对接、高效对接相关业务系统;
10、有数据清洗、数据加工工作经验;有过数据库调优和海量数据存储经验;
11、对数据敏感,精通数据抓取原理及技术,有数据爬取及防爬实战经验;
12、具备良好的代码编写习惯及较强的文档书写能力,有撰写详细的编码注释的习惯,逻辑思维能力强;

申请职位
其他信息
专业要求:
不限
岗位分类:
数据库管理员(DBA)/数据库开发工程师
手机app
  • 手机找工作
  • 更轻松 更便捷
  • 下载手机APP发现机会
相似职位

邮件发送该职位

职位信息发送给以下收件人:

您的邮箱地址(必填):

邮件发送成功

已成功将该职位发送给位收件人

订阅成功

订阅失败

您的订阅已超过上限,如需继续订阅,请在 订阅管理 中至少停用1条订阅。

收藏夹已满

您尚未登录,最多可在本机收藏5个职位。更多跨平台收藏请 登录
您也可以将职位 发送到邮箱

合并收藏成功

我们已经将您在未登录时收藏的5个职位合并到收藏夹。

举报该职位
请填写您的姓名
验证码不正确
提交

使用微信“扫一扫”
打开网页后点击右上角“分享按钮