RSS   



  可打印版本 | 推薦給朋友 | 訂閱主題 | 收藏主題 | 純文字版  


 


 
主題: [問題]Linux上web自動點擊, 塡資料的軟體   字型大小:||| 
reginald
鐵驢友〔中級〕
等級: 5等級: 5


今日心情

 . 積分: 49
 . 文章: 122
 . 收花: 290 支
 . 送花: 346 支
 . 比例: 1.19
 . 在線: 127 小時
 . 瀏覽: 2760 頁
 . 註冊: 7179
 . 失蹤: 1209
 . Tainan
#1 : 2009-8-13 02:29 PM     只看本作者 引言回覆

必要:
1) 自動塡FORM的資料
2) 自動點擊特定連結點 (download file)
3) 獨立軟體,不是 firefox module

最好有:
A) command line scripting
B) table data extraction to csv file

===================================
我試過google,不是找不到,是資料太多,不知從何下手....
實在沒辦法一一去試

===================================
或者 外部 java / javascript 如何控制 firefox 的資料也OK...

[reginald 在  2009-8-13 02:36 PM 作了最後編輯]



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
innova
銀驢友〔高級〕
等級: 14等級: 14等級: 14等級: 14


十週年紀念徽章(五級)  

今日心情

 . 積分: 916
 . 文章: 2714
 . 收花: 7188 支
 . 送花: 1461 支
 . 比例: 0.2
 . 在線: 2182 小時
 . 瀏覽: 15202 頁
 . 註冊: 7173
 . 失蹤: 26
 . 火星
#2 : 2009-8-21 04:24 PM     只看本作者 引言回覆

ref:
autoexpect
expect
lynx
wget

enjoy



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
reginald
鐵驢友〔中級〕
等級: 5等級: 5


今日心情

 . 積分: 49
 . 文章: 122
 . 收花: 290 支
 . 送花: 346 支
 . 比例: 1.19
 . 在線: 127 小時
 . 瀏覽: 2760 頁
 . 註冊: 7179
 . 失蹤: 1209
 . Tainan
#3 : 2009-8-22 01:57 PM     只看本作者 引言回覆


引用:
innova寫到:
ref:
autoexpect
expect
lynx
wget

enjoy


none of the list meets the requirement...



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
innova
銀驢友〔高級〕
等級: 14等級: 14等級: 14等級: 14


十週年紀念徽章(五級)  

今日心情

 . 積分: 916
 . 文章: 2714
 . 收花: 7188 支
 . 送花: 1461 支
 . 比例: 0.2
 . 在線: 2182 小時
 . 瀏覽: 15202 頁
 . 註冊: 7173
 . 失蹤: 26
 . 火星
#4 : 2009-8-24 03:24 PM     只看本作者 引言回覆



# autoexpect telnet www.ntu.edu.tw 80
.....
# vi script.exp
spawn telnet www.ntu.edu.tw 80
match_max 100000
expect -exact "Escape character is "
send -- "GET / HTTP/1.0\r"
expect -exact "GET / HTTP/1.0"
send -- "\r"

expect eof
接下來 看你要對哪個連結做些什麼壞事
請自己在 script.exp 裡面修改!!!
script.exp 請屎用 expect 語法!

自動抓黨 可直接屎用 wget
抓網頁也能用他

# wget www.ntu.edu.tw
# cut -d"=" -f 4 index.html | cut -d"\"" -f 1
.....
lynx 家不同的餐樹,可以幫你把 source dump 出來
幫你過濾連結出來

# lynx --dump http://www.ntu.edu.tw/chinese2009/
References
.....



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
reginald
鐵驢友〔中級〕
等級: 5等級: 5


今日心情

 . 積分: 49
 . 文章: 122
 . 收花: 290 支
 . 送花: 346 支
 . 比例: 1.19
 . 在線: 127 小時
 . 瀏覽: 2760 頁
 . 註冊: 7179
 . 失蹤: 1209
 . Tainan
#5 : 2009-8-25 09:13 PM     只看本作者 引言回覆

目前絕大部份網站 都使用 javascript / ajax 互動,
文字模式的browser能做的十分有限

對於wget,個人較喜好 curl .... (純靜態網頁)
wget/curl download 下來的,不一定是你看到的網頁

以  人  在電腦互動, imacros (extension for Firefox[win32 and linux] and IE) 是我目前最合用

在win32上,可以用 vbscript + at 自動執行 (OK)
在linux上,找不到方法可以自動執行firefox再執行 imacros ,(理論上,寫xpcom可行,但太難了...)



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
innova
銀驢友〔高級〕
等級: 14等級: 14等級: 14等級: 14


十週年紀念徽章(五級)  

今日心情

 . 積分: 916
 . 文章: 2714
 . 收花: 7188 支
 . 送花: 1461 支
 . 比例: 0.2
 . 在線: 2182 小時
 . 瀏覽: 15202 頁
 . 註冊: 7173
 . 失蹤: 26
 . 火星
#6 : 2009-8-27 11:38 AM     只看本作者 引言回覆

Linux 上 FireFox 可以指定 要 show 在哪個 display 上
加  -display  參數即可
但是 似乎還是要在那個 display 上 手動點一下滑鼠 告訴XWin 你的 FF 要擺放的位置
所以 似乎沒辦法利用 crontab做到全自動

也許您可以 攔截自己送出的封包
然後用 autpscript / wget 之類的東西 幫您`填寫表單` 並送出
wget 加餐數 可以幫您代為送出 POST method 資料
GET 資料 就更簡單 直接連去該 URL 就是了~~

畢竟 排除了 XXscript 的動作之後
填完的表單,總是要submit 去給某個網頁上的程式
總不太可能 每次 action 的 form 都不一樣吧?
這樣寫法 也太褲了點...



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
pcca
銅驢友〔中級〕
等級: 9等級: 9等級: 9


今日心情

 . 積分: 156
 . 文章: 476
 . 收花: 1237 支
 . 送花: 91 支
 . 比例: 0.07
 . 在線: 1740 小時
 . 瀏覽: 14651 頁
 . 註冊: 7084
 . 失蹤: 3
 . 馬來西亞
#7 : 2009-9-16 11:48 AM     只看本作者 引言回覆


引用:
reginald寫到:
目前絕大部份網站 都使用 javascript / ajax 互動,
文字模式的browser能做的十分有限

對於wget,個人較喜好 curl .... (純靜態網頁)
wget/curl download 下來的,不一定是你看到的網頁

以  人  在電腦互動, imacros (extension for Firefox[win32 and linux] and IE) 是我目前最合用

在win32上,可以用 vbscript + at 自動執行 (OK)
在linux上,找不到方法可以自動執行firefox再執行 imacros ,(理論上,寫xpcom可行,但太難了...)


I success use PHP script to control Firefox and imacros before...
but still very limited ....



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
innova
銀驢友〔高級〕
等級: 14等級: 14等級: 14等級: 14


十週年紀念徽章(五級)  

今日心情

 . 積分: 916
 . 文章: 2714
 . 收花: 7188 支
 . 送花: 1461 支
 . 比例: 0.2
 . 在線: 2182 小時
 . 瀏覽: 15202 頁
 . 註冊: 7173
 . 失蹤: 26
 . 火星
#8 : 2009-12-29 05:26 PM     只看本作者 引言回覆

樓上方便來個飯粒嗎?

我是有用 proxomitron 去修改 html code
讓他定時跑我要的 function


Ref:
http://twed2k.org/viewthread.php?tid=290613

該篇靈感來自於:
http://zhidao.baidu.com/question/123371351.html


不攔截 html 其實也是可以
只要在輸入 URL 的地方 直接鍵入:
javascript:if(_m_click)clearInterval(_m_click);_m_click=setInterval(function(){......;},1000*60*5);

但是 每次 refresh後, 要打很多字..... XD (懶!)



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記

   

快速回覆
表情符號

更多 Smilies

字型大小 : |||      [完成後可按 Ctrl+Enter 發佈]        

溫馨提示:本區開放遊客瀏覽。
選項:
關閉 URL 識別    關閉 表情符號    關閉 Discuz! 代碼    使用個人簽名    接收新回覆信件通知
發表時自動複製內容   [立即複製] (IE only)


 



所在時區為 GMT+8, 現在時間是 2024-11-22 12:14 AM
清除 Cookies - 連絡我們 - TWed2k © 2001-2046 - 純文字版 - 說明
Discuz! 0.1 | Processed in 0.025616 second(s), 8 queries , Qzip disabled