www.天天干_蜜桃久久av_欧美成人午夜视频_久色成人_国产美女福利_欧美黄色片

爬蟲采集器Xpath常見語法使用詳細(xì)教程

  XPath語法在簡數(shù)采集器中是定位獲取頁面HTML標(biāo)簽或者標(biāo)簽中的內(nèi)容。(需要懂點(diǎn)HTML代碼知識(shí),重點(diǎn)看第4和第5章


1.  /--選擇對應(yīng)的子標(biāo)簽

例子:/html/body/p/a

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body,body下的子標(biāo)簽p,p下的子標(biāo)簽a,獲取結(jié)果是對應(yīng)下圖的第10行a標(biāo)簽;



2.  // --選擇對應(yīng)的子孫標(biāo)簽,即不考慮嵌套位置

例子:/html/body/p//a

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body,body下的子標(biāo)簽p,p下的所有標(biāo)簽a,獲取結(jié)果是對應(yīng)下圖的第10行和12行的a標(biāo)簽;


3.  [數(shù)字]--選取第幾個(gè)標(biāo)簽

例子:/html/body/p/a[2]

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body,body下的子標(biāo)簽p,p下的第二個(gè)標(biāo)簽a,獲取結(jié)果是對應(yīng)下圖的第11行的a標(biāo)簽;


4. //*[@屬性="值"]--選取屬性對應(yīng)的標(biāo)簽(重點(diǎn))

@后面常填寫id或者class屬性,若能在頁面找到對應(yīng)的id屬性更好,因?yàn)閕d屬性在頁面是唯一的值,即一個(gè)id值只能出現(xiàn)一次;

例子://*[@id="main"]

上面xpath路徑意思是獲取頁面中id屬性值為main的標(biāo)簽,不管嵌套關(guān)系了,直接定位到對應(yīng)屬性值的標(biāo)簽,十分快捷方便,獲取結(jié)果是對應(yīng)下圖的第14行的a標(biāo)簽;


如果不用屬性來定位,就得寫成  /html/body/div/p/a ;


5. 在簡數(shù)采集器為例:

I、打開詳情提起器,點(diǎn)擊【打開網(wǎng)頁】


II、打開查看html代碼界面


III、查找有沒對應(yīng)正文的特殊屬性,找到class="m-t-md wzzPd in2"


IV、填寫到xpath路徑中

   

   大部分爬蟲都是使用xpath作為規(guī)則提取,屬于通用規(guī)則,市面大部分采集器都支持xpath。

主站蜘蛛池模板: 国产成人精品久久二区二区 | 亚洲精久 | 国产在线精品一区二区三区 | 97精品超碰一区二区三区 | 国产精品一区久久久久 | 国产精品伊人 | 国产精品国产三级国产aⅴ无密码 | 中文字幕91 | 国产一区亚洲 | 日韩在线视频观看 | 国产成人综合网 | 一区二区三区日本 | yy6080久久伦理一区二区 | 美女一级 | 国产精品夜色一区二区三区 | 欧美一区二区三区免费 | 波多野结衣一二三四区 | 亚洲伊人久久综合 | 亚洲精品无 | 91麻豆精品国产91久久久久久久久 | 精品国产不卡一区二区三区 | 毛片com | 欧美一区永久视频免费观看 | www.成人| 欧美成年黄网站色视频 | 欧美自拍视频 | 91婷婷射| 国产视频福利在线观看 | 99久久免费精品国产男女性高好 | 午夜精品在线 | 欧美日韩在线免费 | 人人澡人人射 | 国产精品色婷婷久久58 | 日韩一二区视频 | 国产中文字幕在线观看 | 欧美视频在线观看 | 国产精品视频一区二区三区 | 中文字幕在线免费 | 中文字幕免费在线 | 久久精品一区二区三区四区 | 五月在线视频 |