www.天天干_蜜桃久久av_欧美成人午夜视频_久色成人_国产美女福利_欧美黄色片

爬蟲采集器Xpath常見語法使用詳細教程

  XPath語法在簡數采集器中是定位獲取頁面HTML標簽或者標簽中的內容。(需要懂點HTML代碼知識,重點看第4和第5章


1.  /--選擇對應的子標簽

例子:/html/body/p/a

上面xpath路徑意思是獲取html標簽下的子標簽body,body下的子標簽p,p下的子標簽a,獲取結果是對應下圖的第10行a標簽;



2.  // --選擇對應的子孫標簽,即不考慮嵌套位置

例子:/html/body/p//a

上面xpath路徑意思是獲取html標簽下的子標簽body,body下的子標簽p,p下的所有標簽a,獲取結果是對應下圖的第10行和12行的a標簽;


3.  [數字]--選取第幾個標簽

例子:/html/body/p/a[2]

上面xpath路徑意思是獲取html標簽下的子標簽body,body下的子標簽p,p下的第二個標簽a,獲取結果是對應下圖的第11行的a標簽;


4. //*[@屬性="值"]--選取屬性對應的標簽(重點)

@后面常填寫id或者class屬性,若能在頁面找到對應的id屬性更好,因為id屬性在頁面是唯一的值,即一個id值只能出現一次;

例子://*[@id="main"]

上面xpath路徑意思是獲取頁面中id屬性值為main的標簽,不管嵌套關系了,直接定位到對應屬性值的標簽,十分快捷方便,獲取結果是對應下圖的第14行的a標簽;


如果不用屬性來定位,就得寫成  /html/body/div/p/a ;


5. 在簡數采集器為例:

I、打開詳情提起器,點擊【打開網頁】


II、打開查看html代碼界面


III、查找有沒對應正文的特殊屬性,找到class="m-t-md wzzPd in2"


IV、填寫到xpath路徑中

   

   大部分爬蟲都是使用xpath作為規則提取,屬于通用規則,市面大部分采集器都支持xpath。

主站蜘蛛池模板: 一区二区国产在线观看 | 亚洲一二三| 中文字幕 国产精品 | 欧美日韩在线免费观看 | 青草青草久热精品视频在线观看 | 涩涩片影院| 一区二区中文字幕 | 久久国产欧美日韩精品 | 99久久久| 看亚洲a级一级毛片 | 五月婷婷综合激情 | 欧美在线视频不卡 | 一区二区三区视频免费看 | 亚洲免费在线播放 | 国产成人91| 国产视频欧美 | 中文字幕一区二区三 | 特级淫片女子高清视频在线观看 | 91社区福利 | 国产精品美女久久久久久久久久久 | 欧美精品一区二区三区四区在线 | 中文字幕不卡在线88 | 成人aaaa| 亚洲在线电影 | 草久在线观看 | 中文字幕在线网址 | av在线干 | 精品一区二区三区免费毛片爱 | 亚洲视频中文 | 真人一级毛片 | 91精品国产一区二区三区蜜臀 | 欧美一级在线 | 香蕉大人久久国产成人av | av一区二区三区四区 | 精品一二区| 欧美日韩福利 | 宅男伊人 | 中文字幕欧美日韩 | 99免费视频 | 美女视频一区二区三区 | 在线观看国产一区 |