tìm text thấy khó quá nếu copy text thì lâu nên mình viết 1 cái mới áp dụng xpath nên tốc độ khá nhanh
code mình viết bằng C#
ở đây mình đính kèm 2 file cho người dùng cuối và nhà lập trình
hiện chương trình mình chỉ chạy được các site viết bằng utf-8 và không hiện nội dung bằng javascript hay AJAX
2 site mình add sẵn là zhsxs.com và menghen.org mọi trông tin config site nằm trong file config.xml
mộ số thông số trong file config.xml
Mã nguồn PHP:
<webs>
<web>zhsxs.com</web>// địa chỉ trang web không có www
<web_begin>http://gate.baidu.com</web_begin>// cái này không cần quan tâm
<getchuong_xpath>//tr/td/a</getchuong_xpath>// Xpath xác định link các chương
<getchuong_start></getchuong_start>// cái này không cần quan tâm
<getchuong_end></getchuong_end>// cái này không cần quan tâm
<begin>0</begin>// cái này không cần quan tâm
<gettitle_xpath>//tr/td/h1</gettitle_xpath>//xpath xác định tiêu đề chương
<gettitle_att></gettitle_att>// cái này không cần quan tâm
<gettitle_value></gettitle_value>// cái này không cần quan tâm
<gettext_xpath>//tr/td/div***91;5***93;</gettext_xpath>//xpath xác định text của chương
<gettext_att></gettext_att>// cái này không cần quan tâm
<gettext_value></gettext_value>// cái này không cần quan tâm
</webs>
các bạn có thể kiểm thử với bộ này
http://www.zhsxs.com/zhschapter/38667.html
mục tiêu cần giải quyết hiện thời
1. Đọc được các site mã hóa bằng GBK
2. Lấy được Xpath một cách dễ dàng như phần mềm của bán Quỷ Kiếm
Update sửa lỗi
1. Đọc được các site mã hóa bằng GBK //đã giải quyết
2. Lấy được Xpath một cách dễ dàng như phần mềm của bán Quỷ Kiếm
bác nào biết comment báo em với
11.08.13 get_text_tq_update2.rar
thêm chức năng xóa xuống dòng