023-88728721
数据挖掘工程师(爬虫方向)
来源: | 作者:pro34fe7a | 发布时间: 2019-02-27 | 461 次浏览 | 分享到:

Responsibilities

- 负责垂直网站网页数据的爬取、清洗

- 解决各种反爬取问题,保证爬取进度

- 优化爬取效率,监控数据爬取进展

- 研究网站安全的新技术等

- 数据清洗,数据挖掘等相关研发工作

 

Requirements

- 两年以上相关开发经验

- 熟悉 Python java 两门语言

- 熟悉 scrapypyspiderwebmagicnutch 等任一爬虫框架

- 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则、xpathcssselector 的网页抽取技术

- 熟悉反爬机制,能解决疑难爬取问题

- 熟悉 Mysqlredismongdboracle 至少之二,有过数据库调优和海量数据存储经验优先

- 有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先

- 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先

- 良好的英文沟通能力,英文文档写作能力

- 优先考虑有在国际化团队工作经验的候选人