爬蟲崗位職責(通用6篇)
爬蟲崗位職責 篇1
職位描述:
工作職責:
1、負責設計和開發(fā)分布式網(wǎng)絡爬蟲系統(tǒng),進行多平臺信息的抓取和分析工作;
2、負責網(wǎng)頁信息和app數(shù)據(jù)抽取、清洗、消重等工作,提升平臺的'抓取效率;
3、參與爬蟲核心算法和策略優(yōu)化,熟悉采集系統(tǒng)的調(diào)度策略;
4、實時監(jiān)控爬蟲的進度和警報反饋。
任職要求:
1、有扎實的算法和數(shù)據(jù)結(jié)構(gòu)能力;
2、熟悉爬蟲原理,熟悉常見的反爬蟲技術(shù),有爬蟲相關(guān)項目開發(fā)經(jīng)驗者優(yōu)先;
3、掌握http協(xié)議,熟悉html、dom、xpath等常見的數(shù)據(jù)抽取技術(shù);
4、有大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、信息提取等經(jīng)驗者優(yōu)先。
爬蟲崗位職責 篇2
崗位職責:
1.負責網(wǎng)絡爬蟲的架構(gòu)設計、開發(fā)與優(yōu)化;
2.負責抓取數(shù)據(jù)的清洗、落地、分析;
3.抓取策略算法的'更新維護,以及確保數(shù)據(jù)抽取準確、高效。
任職要求:
1.兩年及以上互聯(lián)網(wǎng)或軟件行業(yè)工作經(jīng)驗;
2.理解http協(xié)議,熟悉html、dom、xpath;
3.熟悉linux開發(fā)環(huán)境,至少熟悉python/go/java/中的一種編程語言;
4.有爬蟲、信息抽取、文本分類、大數(shù)據(jù)處理相關(guān)經(jīng)驗優(yōu)先;
5.有自然語言處理、機器學習經(jīng)驗優(yōu)先;
6.熟悉瀏覽器內(nèi)核、渲染機制優(yōu)先;
7.工作認真,細心,有條理,積極性高;良好的溝通能力及團隊合作精神。
爬蟲崗位職責 篇3
職責描述:
1、負責公司產(chǎn)品的爬蟲架構(gòu)設計與開發(fā),以及爬蟲策略優(yōu)化等工作;
2、根據(jù)數(shù)據(jù)產(chǎn)品需求,負責對網(wǎng)頁等大規(guī)模文本數(shù)據(jù)抓取、清洗、存儲等設計開發(fā)工作;
任職要求:
1、計算機、數(shù)學或統(tǒng)計等相關(guān)專業(yè)本科及以上學歷,1年以上爬蟲相關(guān)工作經(jīng)驗;
2、熟悉linux平臺,熟練掌握python或java爬蟲開發(fā)工作;
3、熟悉靜態(tài)、動態(tài)網(wǎng)頁等大規(guī)模文本數(shù)據(jù)的高效信息抽取、清洗、存儲等技術(shù);
4、有反爬相關(guān)問題處理經(jīng)驗,精通常用的'爬蟲技術(shù)及架構(gòu)設計,并能快速開發(fā)實現(xiàn);
5、具備良好的編程習慣和算法基礎;
6、善于學習,熱愛技術(shù)開發(fā),善于團隊協(xié)作,能積極主動地參與公司產(chǎn)品研發(fā)等相關(guān)工作。
爬蟲崗位職責 篇4
職位描述:
工作職責:
1.開發(fā)網(wǎng)頁自動化腳本。
2.負責商品信息結(jié)構(gòu)化,編寫自動化腳本解析網(wǎng)頁信息。
3.商品索引系統(tǒng):億級sku的庫存價格實時跟蹤同步,并對商品進行智能分類、本地化、圖片處理和去重。
4.設計、開發(fā)、測試、部署以及維護并改進各子系統(tǒng);
5.管理項目優(yōu)先級并按時交付。
職位要求:
1.全日制統(tǒng)招本科、碩士畢業(yè),1年以上軟件開發(fā)工作經(jīng)驗;
2.熟悉至少一門通用靜態(tài)編譯編程語言,c/c++/java/c#/go;
3.熟悉web端基礎標準,包括html、css、javascript、json等;
4.熟悉python或其他腳本語言,有興趣和能力根據(jù)需求學習其他編程語言;
5.熟悉unix/linux環(huán)境,memcache/redis/mongodb等存儲系統(tǒng),能獨立設計開發(fā)包括前后端交互的業(yè)務子系統(tǒng);
6.熟悉常見的設計模式、單元測試、持續(xù)開發(fā)集成、code review,并能在日常工作踐行;
7.了解搜索引擎、電子商務、社交類應用的系統(tǒng)基本架構(gòu),能對已有的.子系統(tǒng)進行優(yōu)化調(diào)整的優(yōu)先;
8.活躍的開源項目貢獻者優(yōu)先。
爬蟲崗位職責 篇5
職位要求:
具備良好的計算機基礎,熟悉http協(xié)議,具備良好的'基礎前端知識;
有過良好的高并發(fā)系統(tǒng)的后臺開發(fā)經(jīng)驗;
具備一定的數(shù)據(jù)處理/分析經(jīng)驗,熟悉hadoop、mapreduce、spark等并行計算框架;
了解小程序的基礎框架,有實際開發(fā)經(jīng)驗更優(yōu);
掌握c/c++、python等一門或多門語言,有nodejs開發(fā)經(jīng)驗更優(yōu);
如果您還具備以下技能,我們會優(yōu)先考慮:
具備網(wǎng)絡爬蟲系統(tǒng)的開發(fā)經(jīng)驗,有反爬蟲實踐經(jīng)驗;
具備機器學習框架的開發(fā)使用經(jīng)驗;
熟悉傳統(tǒng)搜索引擎的seo規(guī)則。
爬蟲崗位職責 篇6
職責描述:
1.參與爬蟲系統(tǒng)的架構(gòu)設計與開發(fā);
2.負責執(zhí)行和開發(fā)分布式網(wǎng)絡爬蟲系統(tǒng),進行多平臺信息的抓取和分析;
3.負責網(wǎng)頁信息和app數(shù)據(jù)抽取、清洗、消重等工作,提升平臺的'抓取效率;
4.參與爬蟲核心算法和策略優(yōu)化,熟悉采集系統(tǒng)的調(diào)度策略;
5.實時監(jiān)控爬蟲的進度和警報反饋。
任職要求:
1.本科以上學歷,3年以上爬蟲開發(fā)相關(guān)經(jīng)驗,熟練使用python或java進行開發(fā);
2.熟練使用正則表達式、css path、xpath等,能夠從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
3.熟練使用mysql數(shù)據(jù)庫,掌握redis、mongodb、hive等常用nosql技術(shù)并具有實戰(zhàn)經(jīng)驗;
4.熟悉各種抓取技術(shù),包括代理、phantomjs/selenium、驗證碼處理;
5.熟悉整個爬蟲的設計及實現(xiàn)流程,有從事網(wǎng)絡爬蟲、網(wǎng)頁信息抽取開發(fā)經(jīng)驗,熟悉反爬蟲技術(shù),有分布式爬蟲架構(gòu)經(jīng)驗;
6.具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學習背景者優(yōu)先;
7.快速學習能力,工作積極主動,有創(chuàng)業(yè)熱情和良好的團隊協(xié)助能力;
8.需要有大量數(shù)據(jù)爬取以及高難度反爬經(jīng)驗,沒有相關(guān)經(jīng)驗的勿擾。