首页   注册   登录

holajamc

V2EX 第 137459 号会员,加入于 2015-09-08 21:42:41 +08:00
今日活跃度排名 2909
holajamc 最近回复了
1 天前
回复了 nicking 创建的主题 Python 萌新求教-爬取马蜂窝数据
相关的 JS 在这里
/html/body/div[1]/script[35]/text()
可以看看~
6 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
@holajamc emmm chatset -> charset
6 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
@holajamc 流程大概是这样的,HTTP 的 response 合理的规范会在 Content-Type 中附带 chatset 信息,告知客户端服务端会使用什么样子的编码,比如你可以试试访问 github,看一看 response 的 headers 部分
但是这种设想都是十分美好的事情,比如百度百科的 Content-Type 仅仅只有页面类型,因此 requests 会使用 iso-8859
当然了也可以使用 requests 进行编码推测,这是一件开销很大的事情所以不要尝试~
6 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
In [1]: import requests

In [2]: url = 'https://baike.baidu.com/item/Python/407313'

In [3]: headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebK
...: it/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}

In [4]: r = requests.get(url=url, headers=headers)

In [5]: '计算机程序设计语言' in r.text
Out[5]: False

In [6]: r.encoding = 'utf8'

In [7]: '计算机程序设计语言' in r.text
Out[7]: True
19 天前
回复了 zjgwifi 创建的主题 全球工单系统 阿里 dns223.5.5.5 是不是挂了
ping 它有什么用…
28 天前
回复了 fundebug 创建的主题 投资 A 股又牛市了,想不想进去捞一把?
很明显是个 M
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2050 人在线   最高记录 4385   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 7ms · UTC 16:13 · PVG 00:13 · LAX 09:13 · JFK 12:13
♥ Do have faith in what you're doing.
沪ICP备16043287号-1