互联网爬虫，蜘蛛，数据采集器，网页解析器的项目汇总-iaspnetcore.com

http://www.cnblogs.com/liinux/p/6125315.html

https://github.com/MahApps/MahApps.Metro.IconPacks/blob/719ab285f29c10b3ed6853ac58dc0e2d78aa130a/src/MahApps.Metro.IconPacks/Icons/SimpleIcons/PackIconSimpleIconsKind.cs

 public enum PackIconSimpleIconsKind
    {
        [Description("Empty placeholder")] None,
        [Description("1001Tracklists, https://www.1001tracklists.com/")] _1001Tracklists,
        [Description("1Password, https://1password.com/press/")] _1Password,
        [Description("3M, https://www.3m.com/")] _3M,
        [Description("42, https://www.42.fr/")] _42,
        [Description("4D, https://www.4d.com/")] _4D,

互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架层出不穷，此文会不断更新...

C#

ccrawler - 一个简单的Web内容分类方案，它可以根据其内容分开网页,基于C#3.5.
SimpleCrawler - 简单的多线程网络爬虫，基于REG表达式.
DotnetSpider - 基于C#开发的一个轻量级，交叉平台的网络爬虫.
Abot - 具有很好效率和可扩展性的C#网络爬虫.
Hawk - 用 C#/WPF开发的网络爬虫，具有简单的ETL功能.
SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.

JavaScript

scraperjs - 基于JS的一个功能齐全的网络爬虫.
scrape-it - 基于Node.js的网络爬虫.
simplecrawler - 基于事件驱动开发的网络爬虫.
node-crawler - 提供简单API，适于二次开发的网络爬虫.
js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
x-ray - 支持分页的网络爬虫.
node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.

PHP

Goutte - 基于PHP的网页截屏和爬取程序.
- laravel-goutte - 基于Laravel 5 的网络爬虫.
dom-crawler - 易于抽取DOM文件的网络爬虫.
pspider - 基于PHP的并发网络爬虫.
php-spider - 一个基于PHP的高可扩展的网络爬虫.

C++

open-source-search-engine - 基于C/C++开发的网络爬虫和搜索引擎.

C

httrack - 全部网站整体复制工具。 ## Ruby
upton - 一个易于上手的爬虫框架集合，支持CSS选择器.
wombat - 基于Ruby天然的支持DSL的网络爬虫，易于提取网页正文数据.
RubyRetriever - 基于Ruby的网站数据采集和全网数据收割机.
Spidr - 全站数据采集，支持无限的网站链接地址采集.
Cobweb - 非常灵活，易于扩展的网络爬虫，可以单点部署使用.
mechanize - 自动采集网站数据的框架.

blog

c# Httpclient爬亚马逊分类、商品数据

csharp写一个招聘信息采集的程序

https://cloud.tencent.com/developer/article/2356852?areaId=106001

ai 爬虫

Thunderbit