400-650-7353

精品街课程

您所在的位置:首页 > IT干货骨材 > python > 【Python基础知识试题及答案】Chrome的XPath_Helper浏览器插件的用法

【Python基础知识试题及答案】Chrome的XPath_Helper浏览器插件的用法

在chrome调节器输入:chrome://extensions/,如图1所示。

图1 Chrome的扩展程序

在上微型车界面中第一手将XPath-Helper_v2.0.2.crx拖动至该扩展程序页面。点击规定即可。如果安装失败,弹框提拔:无法从该网站添加应用,扩展程序和用户脚本,则敞开开发者选项在哪里便携式,将crx文件后缀修改为rar,并解压成办公用品文件夹名称。点击开发者选项在哪里便携式中的加载已解压的扩展程序旋纽,选择解压后的办公用品文件夹名称,点击规定,安装一气呵成。安装完这个浏览器插件的Chrome调节器见图2。其中XPath-Helper浏览器插件的图标是黑底怎么在方框里打对勾之中为白色意义x。

图2安装了扩展程序的Chrome

安装了XPath_Helper后,下头介绍一下XPath_Helper的用法。鼠标点击XPath_Helper的图标,然后在Chrome调节器中上脸部分就弹出了XPath_Helper界面。用户可以按住shift,把鼠标悬停在想要抓取的HTML页面纯净物上,则在XPath_Helper界面左侧窗口中显示出这个HTML页面纯净物带属性的XPath绝对路径,而右侧窗口显示出该HTML页面纯净物的本末。具体如图3所示。

图3 XPath_Helper应用

下头采用XPath_Helper分析一下百度新闻网站。击XPath_Helper,获得网页模板上的各种纯净物的XPath信息。

获取lol吧的关切多寡,按住shift,鼠标悬停在关切多寡上,则XPath_Helper中得到了该HTML纯净物的XPath路径:

/html/body[@class='skin_normal']/div[@class='wrap1']/div[@class='wrap2']/div[@class='header']/div[@id='pagelet_frs-header/pagelet/head']/div[@class='head_main']/div[@class='head_content']/div[@class='card_top_wrapclearfixcard_top_theme']/div[@class='card_topclearfix']/div[@class='card_title']/div[@class='card_num']/div[@id='pagelet_forum/pagelet/forum_card_number']/span/span[@class='card_menNum']

这是个绝对路径,从网页模板的子目录开始,普普通通在编写网络爬虫程序时,这个路径太长,不今日白银操纵建议应用,可以用深蕴绝无仅有属性的XPath相对路径示意该纯净物,这时在XPath_Helper左侧的框中修改XPath绝对路径,思路是在Chromeapp开发工具的Elements中观察这个纯净物对应的HTML机内码。如果这个标签深蕴类(class)属性,则普普通通用这个代表该纯净物。例如把以上绝对路径改为//span[@class='card_menNum'],在XPath_Helper右侧的结果框中仍然得到关切数:12,913,346,则表达采用的XPath相对路径是有效的,在写网络爬虫代码时,采用这个相对路径,即可找回该纯净物。

图4展示了采用XPath相对路径找回lol吧的关切多寡的结果页面。

图4 获取百度lolacfun的关切多寡

下头想获得lolacfun置顶帖子的标题这个信息,具体见图5展示出的部分。这时发现采用XPath_Helper较难同时获得这3个置顶帖子的XPath路径。带了属性的标签很长,看着稍为晕。采用Chromeapp开发工具中的“小箭头”(即在网页模板中选择一个纯净物并点验它)来解决类似的问题。先点起这个旋纽,然后把鼠标悬停到想要点验的纯净物上,这时在Elements窗口中这个纯净物对应的HTML源码被高亮了,接着右键单击这个高亮块,在弹出菜单中选择Copy,并在子菜单中选择CopyXPath。然后把得到的本末拷贝到XPath_Helper的左侧窗口中。则右侧窗口中得到了对应的本末。XPath_Helper左侧窗口中的本末是//*[@id="thread_top_list"]/li[2]/div/div[2]/div/div[1]/a。下一场采用上面扳平的方法获得其他置顶帖子标题的XPath相对路径,并仔细观察这几个路径。发现不同之处有赖被反斜杠划分出的第二部分li标签中括号中的数字界别是1,2。3。这时可知这几个置顶帖子是存放在id为thread_top_list这个大的ul标签中,且被不同的li标签深蕴着。所以把li标签的中括号数字去掉,这时就能对应上通栏的置顶帖子标题,具体如图5所示。

图5 获取百度lolacfun的置顶帖子信息

如果对Python开发感趣味兴许想要深入学习的现在可以免费领取学习大礼包哦(点击领取80G课程骨材 给女朋友的备注:领骨材)。

课程好礼申请领取
您的姓名
您的电话
诗的意向课程
 

中公优就业

官方QQ

扫视上方二维码微信对话生成器或点击一键加群。免费领取价值599元网课,加群暗号:599。 一键加群

>>白文地址:
注:本站稿件一经许可不足转载,转载请封存gif动态图出处番号及cdr源文件地址。

援引阅读

优就业:ujiuye

关切中公优就业官方微信

  • 关切微信回复基本词“大礼包”,领80G高效学习法
QQ交流群
领取免费网课
(加群给女朋友的备注“网站”)
IT造就交流群 加入群聊 +
软件测试 加入群聊 +
全链路UI/UE设计 加入群聊 +
Python+蓄水 加入群聊 +
互联网络产销 加入群聊 +
Java开发 加入群聊 +
PHP开发 加入群聊 +
VR/AR游戏开发 加入群聊 +
大web前端造就 加入群聊 +
大数据 加入群聊 +
Linux云计算 加入群聊 +
优就业官方微信
扫码回复基本词“大礼包”
领取80G高效学习法

巨划算
现在开通
2020OAO训练营
mp3歌曲免费试听
课程骨材,活动优惠 领取通道
 
 
Baidu