Thứ Hai, 28 tháng 11, 2016

Resources for article extraction from HTML pages

Research papers and Articles for article extraction from HTML pages

Some good blog articles:
 The Easy Way to Extract Useful Text from Arbitrary HTML. The author is using examples written in python to employ a fairly similar technique described in the text-to-tag ratio paper listed above. The original link is dead, here is a copy: http://www.cnblogs.com/loveyakamoz/archive/2011/08/18/2143965.html

Software for article extraction from HTML pages

code is here:
http://code.google.com/p/boilerp…
It has been integrated into Apache Tika as well
Demo Web Service: http://boilerpipe-web.appspot.com/
Java library: http://code.google.com/p/boilerp…
Research presentation (WSDM 2010): http://videolectures.net/wsdm201…

Thứ Tư, 16 tháng 11, 2016

sửa lỗi The superclass "javax.servlet.http.HttpServlet" was not found on the Java Build Path

Tags


Resolution:

bước một click vào project chọn property


bước 2 : search face, chọn tab runtime


 chọn server để biên dịch rồi okie


Chủ Nhật, 6 tháng 11, 2016

Nên dùng Array.forEach hay for trong Javascript?

- về nguyên tắc thì sử dụng cái nào cũng được . tuy nhiên về tốc độ thì dùng for được đánh giá cao về tốc độ, thực hiện test trên trang https://jsperf.com ta sẽ thấy đều đó

arr.forEach(function (item) {
  someFn(item);
})
for (var i = 0, len = arr.length; i < len; i++) {
  someFn(arr[i]);
}


Use:kết quả cho thấy 
tham khảo thêm tại :
https://coderwall.com/p/kvzbpa/don-t-use-array-foreach-use-for-instead