软件能够根据关键词列表在指定的网站上提问并获取解答文章,同时进行一系列的文本处理和过滤。以下是整理好的软件制作流程:

  1. 读取配置文件

    • [默认配置]中读取各项配置参数。
  2. 初始化环境

    • 如果选择隐藏浏览器窗口,则设置浏览器为无头模式。
  3. 读取关键词列表

    • 关键词问题列表.txt文件中逐行读取关键词问题。
  4. 读取违禁词列表

    • 违禁词.txt文件中读取违禁词列表。
  5. 循环处理每个关键词问题

    • 对于每个关键词问题,执行以下步骤:
      1. 构造查询URL:使用关键词问题构造查询URL(例如,将关键词编码为URL参数)。
      2. 发送HTTP请求:向https://www.perplexity.ai发送HTTP请求以获取答案文章。
      3. 接收响应:获取服务器返回的答案文章HTML内容。
      4. 文本处理
        • 根据配置决定是否替换英文逗号为中文逗号。
        • 如果开启指定关键词过滤,则过滤掉违禁词。
        • 如果保留HTML标签,则保留指定的标签(如h2, h3, span.strong)。
        • 如果开启内部排版,则对文本进行内部排版处理。
        • 如果过滤电话、网址、邮箱,则移除这些内容。
      5. 保存答案文章
        • 创建或打开答案文章保存文件夹。
        • 将处理后的答案文章内容保存为TXT文件,文件名为对应的问题。
  6. 完成处理

    • 所有关键词问题处理完毕后,关闭浏览器窗口(如果之前选择了隐藏)。
  7. 错误处理

    • 在上述任何步骤中加入适当的错误处理机制,以确保程序的稳定性和健壮性。

请注意,这个流程是一个高层次的描述,实际的软件实现可能需要更多的细节和技术考量,例如网络请求的具体实现、HTML内容的解析方式、文本处理的具体算法等。此外,由于涉及到网络搜索和自动提问,还需要考虑网站的robots.txt规则以及可能的反爬虫措施。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐