受欢迎的博客标签

互联网爬虫,蜘蛛,数据采集器,网页解析器的项目汇总

Published

http://www.cnblogs.com/liinux/p/6125315.html  

https://github.com/MahApps/MahApps.Metro.IconPacks/blob/719ab285f29c10b3ed6853ac58dc0e2d78aa130a/src/MahApps.Metro.IconPacks/Icons/SimpleIcons/PackIconSimpleIconsKind.cs

 public enum PackIconSimpleIconsKind
    {
        [Description("Empty placeholder")] None,
        [Description("1001Tracklists, https://www.1001tracklists.com/")] _1001Tracklists,
        [Description("1Password, https://1password.com/press/")] _1Password,
        [Description("3M, https://www.3m.com/")] _3M,
        [Description("42, https://www.42.fr/")] _42,
        [Description("4D, https://www.4d.com/")] _4D,

 

 

互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新...

  •  

C#

  • ccrawler - 一个简单的Web内容分类方案,它可以根据其内容分开网页,基于C#3.5.
  • SimpleCrawler - 简单的多线程网络爬虫,基于REG表达式.
  • DotnetSpider - 基于C#开发的一个轻量级,交叉平台的网络爬虫.
  • Abot - 具有很好效率和可扩展性的C#网络爬虫.
  • Hawk -  用 C#/WPF开发的网络爬虫,具有简单的ETL功能.
  • SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.

JavaScript

  • scraperjs - 基于JS的一个功能齐全的网络爬虫.
  • scrape-it - 基于Node.js的网络爬虫.
  • simplecrawler - 基于事件驱动开发的网络爬虫.
  • node-crawler - 提供简单API,适于二次开发的网络爬虫.
  • js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
  • x-ray - 支持分页的网络爬虫.
  • node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.

PHP

  • Goutte - 基于PHP的网页截屏和爬取程序.
  • dom-crawler - 易于抽取DOM文件的网络爬虫.
  • pspider - 基于PHP的并发网络爬虫.
  • php-spider - 一个基于PHP的高可扩展的网络爬虫.

C++

C

  • httrack - 全部网站整体复制工具。 ## Ruby
  • upton - 一个易于上手的爬虫框架集合,支持CSS选择器.
  • wombat - 基于Ruby天然的支持DSL的网络爬虫,易于提取网页正文数据.
  • RubyRetriever - 基于Ruby的网站数据采集和全网数据收割机.
  • Spidr - 全站数据采集,支持无限的网站链接地址采集.
  • Cobweb - 非常灵活,易于扩展的网络爬虫,可以单点部署使用.
  • mechanize - 自动采集网站数据的框架.
blog
 
 
csharp写一个招聘信息采集的程序