通过C#语言.net winform框架实现的网络爬虫软件,网页大数据抓取工具。
java爬虫抓取小说信息,提供用户在线阅读
在理解的基础上,爬虫端非常容易迁移后作为其他垂直搜索引擎。
C#简易蜘蛛爬虫程序源码功能介绍:用WebRequest、HttpWebResponse来获取页面的HTML代码,并通过正规表达式得到链接和文本内容页面直接复制到项目中即可注意:开发环境为VisualStudio2008
简单搜索引擎源码程序介绍:功能描述:采用lucene.net分词技术,lognet4log日志管理网页爬虫,将搜索到得内容存入数据库,sqlserver
、以及避免对服务器资源的过度使用等性能优化用UDP取代封装好的HttpWebRequest/ResponseDNS缓存异步的DNS地址解析硬盘缓存或内存数据库以避免频繁的磁盘寻道分布式爬虫以扩展单机能力