职位描述
岗位职责:
1.参与SaaS系统数据采集模块的架构设计和开发;
2.规划数据采集方案、通过API定期采集商业合作伙伴的数据;
3.设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
4.参与爬虫项目的架构设计、研发、编程工作,改进和提升爬虫效率;
5.负责后台爬虫数据的分布式存储设计以及代码实现;
6.实现数据提取、清洗、结构化、入库、统计分析等需求;
7.研究优化算法,提升数据采集系统的稳定性、可扩展性和效率;
任职要求:
1.3年工作经验以上,熟悉Python编程、设计模式和组件技术;
2.熟悉Flask/Sqlalchemy/Ffmpeg/Pandas等框架和技术、熟悉Restful API;
3.熟悉多线程、多进程、协程开发、网络编程,精通网页抓取原理及技术的实现细节;
4.了解分布式计算和储存技术以及相关原理;
5.熟悉 Django/Django rest/Tornado/Flask/Sqlalchemy 等其中一种或几种开发框架;
6.掌握HTML、CSS、JQuery、RESTful 相关技术;
7.具有良好的站点分析经验,能独立处理基于(seeion, cookie)、(AccessToken, Token)、(selenium, splash)、(访问量, 访问频率)的反爬。自主设计爬取流程;
8.熟悉基于规则的网页信息定位,精通正则表达式,xpath语法;
9.精通原生Python urllib爬取方式、精通原生Python requests爬取方式、精通框架Python scrapy的爬取方式、熟悉Python aiohttp 异步请求框架的爬取方式;
10.熟悉掌握一种或多种热门关系型数据库和非关系型数据库、熟练使用Git。
福利待遇:
1、上班时间:9:30-12:00;13:00-17:30
2、周末双休+法定节假日
公司简介
柳州新号角新媒体科技有限公司.成立于2022-01-14.注册资本为186万人民币.法定代表人为李春锃.经营状态为存续.工商注册号为45****0001***81.注册地址为柳州市新柳大道111号新城智埠大楼1903-33号.经营范围包括一般项目:软件开发;技术服务.技术开发.技术咨询.技术交流.技术转让.技术推广;人工智能基础软件开发;人工智能应用软件开发;网络与信息安全软件开发;互联网数据服务;人工智能理论与算法软件开发;大数据服务;数字文化创意软件开发;信息技术咨询服务;电机及其控制系统研发;信息系统运行维护服务;数字内容制作服务(不含出版发行);信息咨询服务(不含许可类信息咨询服务);科技中介服务;虚拟现实设备制造;数字文化创意内容应用服务;专业设计服务;智能基础制造装备制造;广告设计.代理;软件销售;人工智能硬件销售;可穿戴智能设备销售;电子产品销售.
上班地点
工作地址:
广西壮族自治区柳州市柳东新区新柳大道111号新城智埠大楼1903-33 查看上班路线
-
可能感兴趣的职位
-
暂无推荐岗位
- 柳州新号角新媒体科技有限公司
- 所在行业 电子/电机/新媒体
- 成立时间 3年(2022年1月14日)
- 企业性质 有限责任
- 公司规模 --