Powered by GitBook

Scrapy 1.3 文档

本文档包含您需要了解的关于Scrapy的所有内容。

获得帮助

遇到了问题，我们将帮助您。

查看下 FAQ ，这里有些常见的问题的解决办法
寻找详细的信息？试试索引? 或者模块索引?
使用 scrapy 标签在 StackOverflow 中查询或搜索问题
您可以在 scrapy-users 的邮件列表中寻找内容，或者提问问题
在 #scrapy IRC channel 提问
在 issue tracker 中提交 Scrapy 的 bug

第一步

初窥Scrapy（Scrapy at a glance）

　　了解 Scrapy 是什么，它如何可以帮助您。

安装指南（Installation guide）

　　在您的计算机上安装 Scrapy。

Scrapy入门教程（Scrapy Tutorial）

　　编写您的第一个 Scrapy 项目。

示例（Examples）

　　通过玩一个已有的 Scrapy 项目了解更多。

基本概念

命令行工具（Command line tool）

　　了解用于管理 Scrapy 项目的命令行工具。

爬虫（Spiders）

　　编写规则以抓取您的网站。

选择器（Selectors）

　　使用XPath从网页提取数据。

Scrapy终端（Scrapy shell）

　　在交互式环境中测试提取代码。

　　定义要抓取的数据。

Item装载器（Item Loaders）

　　使用提取的数据填充Item。

Item管道（Item Pipeline）

　　后处理（Post-process），存储已爬取的数据。

Feed导出（Feed exports）

　　使用不同的格式输出爬取数据到不同的存储端。

请求和响应（Requests and Responses）

　　了解用于表示HTTP请求和响应的类。

链接提取器（Link Extractors）

　　方便用于提取后续跟进链接的类。

设置（Settings）

　　了解如何配置Scrapy并查看所有可用设置。

异常（Exceptions）

　　查看所有已有的异常及其含义。

内置服务

　　了解如何在Scrapy上使用Python的内置logging。

数据收集（Stats Collection）

　　收集爬虫运行数据。

发送邮件（Sending e-mail）

　　发生特定事件时发送电子邮件通知。

Telnet终端（Telnet Console）

　　使用内置的Python控制台检查正在运行的crawler（爬虫）。

Web服务（Web Service）

　　使用web service对您的爬虫进行监控和管理。

解决特定问题

常见问题（Frequently Asked Questions）

调试爬虫（Debugging Spiders）

爬虫合同（Spiders Contracts）

实践经验（Common Practices）

通用爬虫（Broad Crawls）

借助Firefox来爬取（）

使用firebug来爬取（）

调试内存溢出（）

扩展Scrapy

其他

results matching ""

No results matching ""