分享好友 最新资讯首页 最新资讯分类 切换频道
自然语言处理PJ Outline
2024-11-07 22:53

分两部分做. 第一部分是无损文本压缩, 第二部分是sentence level text summarization, 唤作有损文本压缩. 这部分就放弃了, 估计做不出来, 没必要庸人自扰.

自然语言处理PJ Outline

不要对第二部分寄太高期望, 因为大概率完不成, 毕竟我对这一领域之前毫无接触. 果然, 你个小辣鸡.

实验, 压缩html, 利用rnn的对结构性语义的学习能力.

整体引入. 互联网产生文本太多(?是否是伪命题?)存储和传播如果不进行压缩很不经济. 在安装NLTK语料库的时候, 将近300M的文本也下载了很久. (更多例子, 网文等, 说明文本压缩的意义)

信息论. 要有数学的成分, 主要说明, 编码与信息熵. 介绍哈弗曼编码, 理论计算用哈弗曼编码对brown语料库逐字符和逐词压缩的压缩率. 介绍算数编码. 说明算数编码的优越性. 

模块化算数编码部分, 完全分离编码和模型. 即编码只负责按频率区间划分以及落在的区间进行编码, 解码就反过来, 按区间划分与所落在的区间解码. 做成API来调用. (是否用C++来完成会更好?即python 内嵌C++ ref2 ref3)

简要综述数据压缩. 说明数据压缩=编码+模型. 然后说明, 编码是已经解决的问题, 而模型更多是一个ai problem. 参考老爷子的书

PPM. 用python复现一个PPM来压缩brown语料库(or 整个语料库, 这样能和300M做对比233). 注意使用nltk中的自带的函数, 用n-gram代替上文的说法, 用FreqDist来做统计. (感觉复杂度要爆炸)

引入文本预测, LSTM. 参考多方资料, 现有Stanford一篇, 再看看CMIX和PAQ8的做法, 这方面研究应该前人做透了. 做benchmark, 如压一下enwiki8. 能做到state of art就美滋滋了.

似乎LSTM是做Context Mixing的? 预测字符仿佛用的是rnn? 这里是karpathy对rnn的说明, 以及他基于rnn的逐字符文本生成实现.

LSTM的几个实现

https://github.com/kedartatwawadi/NN_compression 这个仿佛就是Stanford那个家伙...

https://github.com/byronknoll/lstm-compress CMIX的实现, 竟然是手写反向传播...orz

关注sentence level text summarization.

两方面, 一方面是传统做法, 试图对句子结构做分析, 采用已有标注的语料, 化简句子结构.

最新文章
Sem外包:企业数字营销转型的挺好策略
随着互联网技术的发展,数字化营销已经成为企业营销策略中不可或缺的一部分。在数字化营销策略的构建中,搜索引擎营销(SEM)被
百度蜘蛛池租用:揭秘蜘蛛池目录站群源码,高效SEO策略的秘密武器
百度蜘蛛池租用揭秘:深度解析蜘蛛池目录站群源码,揭示高效SEO策略的核心秘密,助您掌握搜索引擎优化利器。本文目录导读:蜘蛛
聚焦 | 为校园公众号“降温”
本刊记者李薇薇随着信息化时代的到来,在微信公众号上发布校园新闻、展示学校动态,成为不少学校的宣传“标配”。然而,从今年上
宝塔搭建GPT+MJ+GPTs程序
目录准备 1.云服务器 2.支持ChatGPT+Midjourney的服务的秘钥 需要准备的软件(能进行ssh连接的都行) Windows版
异构计算+高性能低功耗NPU,高通正在推动终端侧生成式AI发展
9月6日,2024全球AI芯片峰会在北京召开。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业
均安SEO优化攻略,揭秘全方位网站排名提升秘诀
均安SEO优化策略,全方位提升网站排名秘诀:优化关键词、提高内容质量、加强外链建设、优化网站结构、提升用户体验。通过这些方
北交所科技成长产业跟踪第三期:华为Mate品牌盛典发布鸿蒙AI新品,关注北交所鸿蒙%26星闪相关公司.pdfVIP
源引金融活水润泽中华大地内容目录1.华为Mate品牌盛典如期举行,多款AI终端亮相51.1.Mate70蕴含九大AI功能,MateX6首发星闪关机
一、智能创作平台的全方位解决方案
在数字化时代的浪潮中内容创作已成为企业竞争和塑造的核心环节。传统的内容创作方法往往耗时耗力,且难以保证内容的品质和一致性
【GPT-4】GPT-4 是否已经显示出通用人工智能的迹象?——微软已经为 OpenAI 的 GPT-4 创建了一系列测试,它声称表明人工智能模型已经显示出通用智能的“火花”
目录 GPT-4 是否已经显示出通用人工智能的迹象? Is GPT-4 already showing signs of artificial general intelligence? "We bel
惠普和rog哪个好(6000买惠普还是华硕)
在操作系统选择方面,ROGGU604和HP暗影精灵9/光精灵9均支持流行的Windows和Linux系统,提供灵活的使用环境。 ROGGU604 的快速充