爬虫学习

找了些不错的爬虫平台,学习参考:

JS版爬虫:

1.http://www.shenjianshou.cn/

2.https://github.com/ShenJianShou/crawler_samples

Python版爬虫:

http://scrapy.org/

PHP版获取页面内容:

http://sourceforge.net/projects/simplehtmldom/

.Net版爬虫:

http://www.locoy.com/

http://www.bazhuayu.com/

使用simple_html_dom 解析html 页面

如果想用PHP 写爬虫 获取某些网页数据,需要能解析HTML页面结构,simple_html_dom是不错的工具。

使用手册:http://simplehtmldom.sourceforge.net/manual.htm

下载:https://sourceforge.net/projects/simplehtmldom/

备注:当将采集的内容存数据库时,记得编码要保持一致,否则会报如下类似错误:

Error: Illegal mix of collations (utf8_general_ci,IMPLICIT) and (gbk_chinese_ci,COERCIBLE) for operation '='