暴力强行复制网页内容,终极手法

   日期:2024-12-27    作者:bnm356789 移动:http://mip.riyuangf.com/mobile/quote/72084.html

飞书案例

1,把网页全屏显示,ctrl+鼠标滚轮,缩放整个网页到最小,尽量把一个屏幕的内容都完整显示出来就行

原因:有的网页里,包含正文内容部分的div源码部分,是动态显示出来的,是根据当前浏览的页面高度才显示文字内容都的

白话讲:就是那文章你看到中间那部分,按F12查看源码,发现源码里只显示正在看的中间这一段的内容,前面后面的内容没有,直到滚动网页内容,源码也跟着在变。

ps:网页内容不多时,缩放到一个屏幕显示完整,这时源码就显示完整 不会动了

2缩放网页到最小后按F12,设置开发者面板靠右侧(点左上角那三个点,下图1、2步

3,点面板左上角的小箭头,鼠标移动到网页正文内容,选中包含正文容部分的源码,右键菜单复制outerHTML(下图3、4、5、6步

主要是删除:a-zA-Z/-(<"),=>:;_*~?& 这些字符

1,CV大法,释放剪切板里的屎到文本编辑器, 保存

2,这里用 python 处理,我很懒直接面向cmd操作,这里得到行首有数字的文本

 

3、如果正文内容行首没有数字编号之类的,则直接用下面的代码删除行首的数字。

如果内容不多,行首有数字编号的,自己微调,手动加上。

如果行首数字批量相同,建议用支持列选的文本编辑器,批量替换

 

4、行处理,删除每行两个中文字符之间的长数字


 

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号