该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容,源自顶尖技术企业和社群。借助先进语言模型技术,对精选文章进行高效摘要、专业评分及多语种翻译,实现了从初步评估到深入剖析,再到传播的全面自动化流程。通过引入Workflow平台,该项目显著提升了内容处理的速度与质量,为读者带来更加便捷、精准且多元化的阅读体验,满足了不同背景与需求的学习者及专业人士的信息渴求。
其主要原理是通过 RSS 订阅和爬虫,收集来自各个领域的优质博客文章,并通过大语言模型进行筛选和评估,以提高内容的质量和效率。其核心特性包括:
- 精准核心摘要,高效信息获取:采用前沿的大语言模型技术,精准提炼每篇文章的核心精髓,使读者即便在忙碌中也能迅速抓住关键信息,提升阅读效率与质量。
- 智能多维度评分,优质内容甄选:严格筛选文章来源,依托大语言模型的强大能力,从内容深度、写作质量、实用价值及关联性等多个维度进行综合评价,确保为读者推荐的都是经过精心挑选的优质内容。
- 无缝多语言翻译,全球知识共享:借助行业领先的翻译解决方案,旨在打破语言壁垒,让开发者都能轻松跨越语言障碍,自由访问并吸收世界各地宝贵的专业知识与见解,促进全球知识的无缝交流与共享。
- Workflow优势
原方案采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译,然而,这种综合性方法带来了多重挑战,包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬,以及运维过程中的修改、测试与部署效率低下。原网站采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译,然而,这种综合性方法带来了多重挑战,包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬,以及运维过程中的修改、测试与部署效率低下。
参考文章: RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
在选择AI应用开发平台时,了解不同平台的功能、社区支持以及部署便捷性是非常重要的。在选择AI应用开发平台时,了解不同平台的功能、社区支持以及部署便捷性是非常重要的。
-
优势
-
:提供了多种大模型接入方式,支持多种API接口,使得开发者可以根据需求灵活选择和切换模型,这对于需要高性能模型的应用场景尤为重要。
-
:Chat功能不仅支持多轮对话,还能通过智能推荐和上下文理解提升用户体验,适用于需要复杂交互的场景。
-
:内置了知识库管理系统,支持多种数据格式的导入和导出,便于用户管理和利用知识资源。
-
:Workflow设计简洁直观,支持拖拽式操作,使得非技术人员也能快速上手,大大降低了使用门槛。
-
:提供的Prompt IDE工具,让开发者可以更直观地调试和优化提示词,提升了开发效率。
-
-
劣势
-
:虽然界面设计较为友好,但对于初学者来说,仍需要一定时间来熟悉其工作流程和功能。
-
:相较于一些成熟的开发平台,社区活跃度和资源丰富度还有待提升,这可能会影响到开发者在遇到问题时的解决速度。
-
:虽然Dify提供了丰富的功能,但在某些高度定制化的需求上,可能还需要进一步的开发和调整。
-
-
优势
-
:Agent智能体功能强大,能够自动执行复杂任务,减少了人工干预的需求,适用于需要自动化处理大量任务的场景。
-
:提供了LLMOps支持,使得开发者可以更方便地进行模型训练、优化和部署,这对于AI模型的持续迭代和优化至关重要。
-
:提供了后端即服务的功能,简化了后端开发流程,使得开发者可以更专注于前端和业务逻辑的开发。
-
:RAG引擎能够高效地处理和检索大量数据,适用于需要快速响应和高吞吐量的应用场景。
-
-
劣势
-
:FastGPT的功能较为复杂,对于初学者来说,可能需要较长时间来掌握其使用方法和技巧。
-
:相较于一些轻量级的开发平台,FastGPT的部署过程可能更为复杂,需要一定的技术背景和经验。
-
:虽然FastGPT的功能强大,但其用户界面可能不如一些竞争对手直观和友好,这可能会影响到用户的使用体验。
-
选择合适的平台首先要明确自己的需求。Dify和FastGPT各有特点,适用于不同的应用场景。
-
MaxKB/Dify:适合需要快速构建和部署AI应用的开发者,提供了丰富的预设模板和集成工具,使得开发者可以快速上手,尤其适合初学者和需要快速验证想法的团队。
-
FastGPT/RagFlow:适合需要高度定制化和复杂工作流的企业级用户,提供了强大的RAG引擎和Workflow orchestration,能够处理复杂的业务逻辑和数据处理需求。
-
在选择平台时,应考虑以下因素:
-
项目规模:如果是小型项目或初创团队,MaxKB/Dify的快速部署和简单易用性可能更适合。如果是大型企业级项目,FastGPT/RagFlow的强大功能和定制化能力更为合适。
-
技术栈:考虑团队现有的技术栈和成员的技术背景。在技术实现上有所不同,选择与团队技术栈匹配的平台可以减少学习成本和开发难度。
-
功能需求:明确项目所需的核心功能,如大模型接入、Chat功能、知识库等。Dify和FastGPT在这些功能上各有优势,根据具体需求进行选择。
-
社区支持和资源丰富度对于平台的选择也至关重要。
-
MaxKB/Dify:拥有一个活跃的社区,提供了丰富的文档、教程和示例代码。社区成员经常分享使用心得和解决方案,对于遇到的问题可以快速得到帮助。
-
FastGPT/RagFlow:社区相对较小,但提供了专业的技术支持团队。对于企业级用户,FastGPT提供了定制化的技术支持和咨询服务,确保项目的顺利进行。
-
在选择平台时,应考虑以下因素:
-
社区活跃度:活跃的社区意味着更多的资源和更快的解决问题速度。社区活跃度较高,适合需要快速解决问题的开发者。
-
技术支持:对于企业级用户,专业的技术支持至关重要。提供了专业的技术支持,适合对技术支持有较高要求的用户。
-
部署和使用的便捷性直接影响开发效率和成本。
-
MaxKB/Dify:提供了简单易用的界面和一键部署功能,使得开发者可以快速将应用部署到云端或本地。文档详细,适合初学者快速上手。
-
FastGPT/RagFlow:部署相对复杂,需要一定的技术背景和配置。提供了强大的定制化能力,适合对性能和功能有较高要求的用户。
-
在选择平台时,应考虑以下因素:
-
部署难度:MaxKB/Dify的部署过程简单,适合需要快速部署的开发者。FastGPT/RagFlow的部署相对复杂,但提供了更多的配置选项。
-
使用便捷性:MaxKB/Dify的用户界面友好,操作简单。FastGPT/RagFlow的用户界面相对复杂,但提供了更多的功能和定制化选项。## 7.0 优劣势选择
-
网站文章来源于以下所有 RSS 订阅源(200个):
其中微信公众号转 RSS 采用 wewe-rss 项目搭建,目前已支持的微信公众号 RSS 订阅源(200个)整理如下:
具体资料见 码源:、文件
- 更多技术细节参考RSSHUB: https://github.com/DIYgod/RSSHub
-
wewe-rss: https://github.com/cooderl/wewe-rss
-
阿里技术
- 新智元
- 文章爬取流程:基于 RSS 协议,爬取所有订阅源的文章信息,包括标题、链接、发布时间等,通过链接和无头浏览器爬取全文内容。通过订阅源上定义的正文选择器提取正文,并对正文的 HTML、图片等进行处理,放入待处理文章列表。
- 文章初评流程:通过语言、文章内容等特征,对文章进行初次评分,剔除低质量文章和营销内容,减少后续步骤处理。
- 文章分析流程:通过大语言模型对文章进行摘要、分类和评分,生成一句话总结、文章摘要、主要观点、文章金句、所属领域、标签列表和评分等,便于读者快速过滤筛选及了解全文主要内容,判断是否继续阅读。包括 分段分析 - 汇总分析 - 领域划分和标签生成 - 文章评分 - 检查反思 - 优化改进 等节点。
- 分析结果翻译流程:通过大语言模型对文章分析结果进行翻译,目前网站支持中英两种语言,根据原文语言和目标语言对摘要、主要观点、文章金句、标签列表等进行翻译。包括 识别专业术语 & 初次翻译 - 检查翻译 - 意译 等环节。
流程说明:
- 为了便于测试和接口调用,本流程设计以网站的文章ID作为输入。通过Workflow内置的HTTP调用节点和代码节点,能够高效地调用网站的API,进而获取到文章的元数据(包括标题、来源、链接、语言等)以及全文内容。
- 针对中文和英文文章,采用了不同的模型和提示词,这样的设计使得可以更加灵活地调整和优化处理流程,以适应不同语言文章的特点。
- 在文章初评的LLM节点中,采用了CO-STAR提示词框架来明确上下文、目标、分析步骤以及输入输出格式,并提供了输出示例。完整的提示词设置可以在上述项目地址中查看,以便更好地理解和应用。
- 网站应用通过调用Dify Workflow开放的API,传入文章ID并获取到文章的初评结果。根据结果中的ignore和value属性,可以判断是否需要继续对文章进行后续处理。
流程说明:
- 分析流程的输入同样是网站的文章ID。借助Workflow内置的HTTP调用节点和代码节点,我们能够方便地调用网站的API,从而获取到文章的元数据(涵盖标题、来源、链接、语言等信息)以及全文内容。
- 为了确保不遗漏文章中的任何关键信息,分析流程首先会判断文章的长度。如果文章长度超过6000个字符,我们会进行分段处理;否则,将直接对全文进行分析。
- 分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等,这些元素能够帮助读者快速了解文章的核心内容。
- 在分析流程中,我们充分利用了Workflow中的分支、迭代、变量聚合等节点,这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果,我们可以使用变量聚合将全文分析的内容整合在一起,便于后续节点的处理。
- 接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类,生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面,有助于后续文章的组织,并增强搜索和推荐功能的效果。
- 在文章评分节点中,我们利用大语言模型对文章内容进行多维度的评估,包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分,帮助读者快速筛选出优质文章。
- 随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查,并输出检查结果和反思内容。
- 最后是基于检查反思结果的优化改进节点。在这里,大语言模型会分析检查和分析结果,并再次确认输出格式和语言。最终,它将输出优化后的分析结果以及更新原因。
- 网站应用通过调用Workflow开放的API,传入文章ID并获取并保存文章的分析结果。根据文章的评分,我们可以判断是否需要继续对文章进行后续处理。
流程说明:
- 翻译流程的输入为网站的文章ID。通过Workflow内置的HTTP调用节点和代码节点,我们可以调用网站的API,获取文章的元数据(包括标题、来源、链接、原文语言、目标语言等),以及全文内容和分析结果。
- 翻译流程采用了“初次翻译–检查反思–优化改进,注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯,提升翻译的准确性和自然度。
流程说明:
- 为了便于测试和接口调用,本流程设计以网站的文章ID作为输入。通过Workflow内置的HTTP调用节点和代码节点,能够高效地调用网站的API,进而获取到文章的元数据(包括标题、来源、链接、语言等)以及全文内容。
- 针对中文和英文文章,采用了不同的模型和提示词,这样的设计使得可以更加灵活地调整和优化处理流程,以适应不同语言文章的特点。
- 在文章初评的LLM节点中,采用了CO-STAR提示词框架来明确上下文、目标、分析步骤以及输入输出格式,并提供了输出示例。完整的提示词设置可以在上述项目地址中查看,以便更好地理解和应用。
- 网站应用通过调用Dify Workflow开放的API,传入文章ID并获取到文章的初评结果。根据结果中的ignore和value属性,可以判断是否需要继续对文章进行后续处理。
文章id获取
以下为中文文章初评的提示词,对于英文文章,只是将提示词翻译成英文。
流程说明:
- 分析流程的输入同样是网站的文章ID。借助Workflow内置的HTTP调用节点和代码节点,我们能够方便地调用网站的API,从而获取到文章的元数据(涵盖标题、来源、链接、语言等信息)以及全文内容。
- 为了确保不遗漏文章中的任何关键信息,分析流程首先会判断文章的长度。如果文章长度超过6000个字符,我们会进行分段处理;否则,将直接对全文进行分析。
- 分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等,这些元素能够帮助读者快速了解文章的核心内容。
- 在分析流程中,我们充分利用了Workflow中的分支、迭代、变量聚合等节点,这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果,我们可以使用变量聚合将全文分析的内容整合在一起,便于后续节点的处理。
- 接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类,生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面,有助于后续文章的组织,并增强搜索和推荐功能的效果。
- 在文章评分节点中,我们利用大语言模型对文章内容进行多维度的评估,包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分,帮助读者快速筛选出优质文章。
- 随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查,并输出检查结果和反思内容。
- 最后是基于检查反思结果的优化改进节点。在这里,大语言模型会分析检查和分析结果,并再次确认输出格式和语言。最终,它将输出优化后的分析结果以及更新原因。
- 网站应用通过调用Workflow开放的API,传入文章ID并获取并保存文章的分析结果。根据文章的评分,我们可以判断是否需要继续对文章进行后续处理。
运行时间:157.478s,总 token 消耗数:29114 Tokens
批量处理大量文章时,可以在开始节点入参里就直接把你要出来的文章元数据和内容传入,而不是通过 HTTP 接口去获取
由于文章篇幅问题:文章分析流程见: 文章分析流程
流程说明:
- 翻译流程的输入为网站的文章ID。通过Workflow内置的HTTP调用节点和代码节点,我们可以调用网站的API,获取文章的元数据(包括标题、来源、链接、原文语言、目标语言等),以及全文内容和分析结果。
- 翻译流程采用了“初次翻译–检查反思–优化改进,注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯,提升翻译的准确性和自然度。
由于文章篇幅问题:文章翻译流程见: 翻译篇章
原文链接: https://blog.csdn.net/sinat_39620217/article/details/141399014
该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容,源自顶尖技术企业和社群。借助先进语言模型技术,对精选文章进行高效摘要、专业评分及多语种翻译,实现了从初步评估到深入剖析,再到传播的全面自动化流程。通过引入Workflow平台,该项目显著提升了内容处理的速度与质量,为读者带来更加便捷、精准且多元化的阅读体验,满足了不同背景与需求的学习者及专业人士的信息渴求。