http://www.cnblogs.com/liinux/p/6125315.html
https://github.com/MahApps/MahApps.Metro.IconPacks/blob/719ab285f29c10b3ed6853ac58dc0e2d78aa130a/src/MahApps.Metro.IconPacks/Icons/SimpleIcons/PackIconSimpleIconsKind.cs
public enum PackIconSimpleIconsKind
{
[Description("Empty placeholder")] None,
[Description("1001Tracklists, https://www.1001tracklists.com/")] _1001Tracklists,
[Description("1Password, https://1password.com/press/")] _1Password,
[Description("3M, https://www.3m.com/")] _3M,
[Description("42, https://www.42.fr/")] _42,
[Description("4D, https://www.4d.com/")] _4D,
互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新...
C#
- ccrawler - 一个简单的Web内容分类方案,它可以根据其内容分开网页,基于C#3.5.
- SimpleCrawler - 简单的多线程网络爬虫,基于REG表达式.
- DotnetSpider - 基于C#开发的一个轻量级,交叉平台的网络爬虫.
- Abot - 具有很好效率和可扩展性的C#网络爬虫.
- Hawk - 用 C#/WPF开发的网络爬虫,具有简单的ETL功能.
- SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.
JavaScript
- scraperjs - 基于JS的一个功能齐全的网络爬虫.
- scrape-it - 基于Node.js的网络爬虫.
- simplecrawler - 基于事件驱动开发的网络爬虫.
- node-crawler - 提供简单API,适于二次开发的网络爬虫.
- js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
- x-ray - 支持分页的网络爬虫.
- node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.
PHP
- Goutte - 基于PHP的网页截屏和爬取程序.
- laravel-goutte - 基于Laravel 5 的网络爬虫.
- dom-crawler - 易于抽取DOM文件的网络爬虫.
- pspider - 基于PHP的并发网络爬虫.
- php-spider - 一个基于PHP的高可扩展的网络爬虫.
C++
- open-source-search-engine - 基于C/C++开发的网络爬虫和搜索引擎.
C
blog
csharp写一个招聘信息采集的程序