web-scraping

文章 6浏览 12

需要使用python清理网页抓取的数据
Needtocleanwebscrapeddatausingpython我正在尝试编写用于从http://goldpricez.com/gold/history/lkr/years-3抓取数据的代码。我写的代码如下。该代码有效，并给了我预期的结果。importpandasaspdurl="http://goldpricez.com/gold/history/lkr/years-3"df=pd.re…
2025-04-281
将 for 循环添加到工作网络爬虫(Python 和 Beautifulsoup)
Addingaforlooptoaworkingwebscraper(PythonandBeautifulsoup)我对for循环有疑问，并将其添加到已经工作的网络抓取工具中以运行网页列表。我在看的可能是两三行简单的代码。我很感激这个问题之前可能已经被问过很多次并得到了回答，但我一直在努力让一些代码为我工作很长一段时间了。我对Python比较陌生，希望有所改进。背景信息：我已经使用Python和B…
2024-10-281
如何在scrapy中重新调度403 HTTP状态码以便稍后爬取？
Howtoreschedule403HTTPstatuscodestobecrawledlaterinscrapy?根据这些说明，我可以看到HTTP500错误、连接丢失错误等总是被重新安排，但如果403错误也被重新安排，或者它们被简单地视为有效响应或在之后被忽略，我无法找到任何地方达到重试限制。同样来自同一条指令：Failedpagesarecollectedonthescrapingproces…
2024-10-141
当我在 R 中使用 rvest 包解析网站时，我的用户代理是什么？
What'smyuseragentwhenIparsewebsitewithrvestpackageinR?由于在R中很容易，我使用rvest包来解析HTML以从网站中提取信息。我想知道在请求期间我的User-Agent是什么(如果有的话)，因为User-Agent已分配给Internet浏览器，还是有办法以某种方式设置它？我打开会话并从HTML中提取信息的代码如下：library(rvest)s…
2024-10-121
Scraping — 使用 PyQt4 生成的 JS 页面中的 <dt> 标记缺少文本元素
Scraping--Textelementmissingfor<dt>tagfromJSgeneratedpageusingPyQt4我正在尝试使用PyQt4抓取此页面，但由于某种原因，当我使用BeautifulSoup进行搜索时，<dt>标签的文本元素没有显示出来。我对使用PyQt4还很陌生，所以我不确定这里出了什么问题。我得到了文本标签的所有文本元素，但没有.页面没有完…
2024-08-171
将 url 传递给从 RabbitMQ 消费的 scrapy 中的 parse 方法
PasstheurlintotheparsemethodinscrapythatwasconsumedfromRabbitMQ我正在使用scrapy来使用来自RabbitMQ的消息(url)，但是当我使用yield调用解析方法时，将我的url作为参数传递。程序没有进入回调方法。下面是以下内容我的蜘蛛的代码#-*-coding:utf-8-*-importscrapyimportpikafromsc…
2024-07-281

web-scraping

需要使用python清理网页抓取的数据

将 for 循环添加到工作网络爬虫(Python 和 Beautifulsoup)

如何在scrapy中重新调度403 HTTP状态码以便稍后爬取？

当我在 R 中使用 rvest 包解析网站时，我的用户代理是什么？

Scraping — 使用 PyQt4 生成的 JS 页面中的 <dt> 标记缺少文本元素

将 url 传递给从 RabbitMQ 消费的 scrapy 中的 parse 方法