
影刀RPA新手教程读取文字完全指南——让影刀把网页上的文字读出来存到变量里大家好我是林焱。今天教你让影刀把网页上的文字读出来存到变量里。这是数据采集的基础。先搞懂什么是读取文字你平时上网用眼睛看网页上的文字。让影刀读取文字就是让影刀替你把网页上的文字看下来存到一个变量里后面想怎么用就怎么用。你学会了读取文字就能让影刀帮你采集任何网页上的数据。12大核心模块先认识一下学影刀RPA总共就这12个核心模块打开网页点击元素输入文字读取文字今天学这个等待元素出现网页截图元素捕捉XPathCSS选择器获取元素对象循环变量今天重点学第4个读取文字。案例主线打开百度搜索影刀RPA把搜索结果第一条的标题读出来我们今天要做的事情第一步让影刀自动打开百度首页第二步在搜索框里输入影刀RPA第三步点击百度一下按钮第四步等待搜索结果页面加载完第五步把第一条搜索结果的标题文字读出来存到变量里第六步用打印日志把读到的标题显示出来做完你就彻底懂了怎么让影刀读取任何网页上的文字。第一步新建应用打开百度首页打开影刀RPA新建一个应用。拖一个打开网页指令到流程编辑区。右边属性设置区里填写网址https://www.baidu.com 浏览器类型Chrome 等待加载完成是 保存网页对象至百度网页第二步用XPath找到搜索框输入影刀RPA拖一个获取元素对象指令到流程编辑区。定位方式选XPath填入//*[idkw]保存元素对象至搜索框店群矩阵自动化突破运营极限再拖一个输入文字指令操作目标搜索框变量 输入内容影刀RPA 输入方式模拟输入 输入前清空是 输入后回车否第三步点击百度一下按钮拖一个获取元素对象指令。定位方式选XPath填入//*[idsu]保存元素对象至百度一下按钮再拖一个点击元素指令操作目标百度一下按钮变量 点击方式模拟点击 等待after点击是 等待时间秒3第四步等待搜索结果页面加载完拖一个等待元素出现指令到流程编辑区。操作目标用XPath//h3[classt]/a超时时间填10秒。意思是等搜索结果的标题出现了再继续往下走。第五步用XPath找到第一条搜索结果读取标题文字拖一个获取元素对象指令。定位方式选XPath填入//h3[classt]/a保存元素对象至第一条搜索结果再拖一个获取元素文本指令到流程编辑区。右边属性设置区里操作目标第一条搜索结果变量 保存文本至第一条标题 第六步理解获取元素文本的每个参数“操作目标”你要读取哪个元素的文字就选那个元素变量。“保存文本至”读到的文字存到哪个变量里。后面要用这个变量。“获取方式”一般选元素文本就是元素里面显示的文字。有些元素里还有子元素如果你想读取包括子元素在内的所有文字选元素内全部文本。第七步用打印日志看看读到了什么拖一个打印日志指令到流程编辑区。右边属性设置区里“内容选择变量第一条标题”。点击运行按钮。运行完之后在运行日志窗口里你能看到第一条搜索结果的标题文字。恭喜你你让影刀成功读取了网页上的文字。我当时踩过的坑坑一获取元素文本读出来是空的。原因元素还没加载完就去读了。解决办法在读取之前加一个等待元素出现指令。坑二读出来的文字带有多余的空格和换行。解决办法用字符串替换指令把空格和换行替换掉。坑三有些文字是用JavaScript动态加载的直接读读不到。解决办法等几秒或者用执行JS指令去读。坑四元素里面还有子元素读出来的文字重复了。解决办法把获取方式改成元素文本而不是元素内全部文本。真实代码读取文字的XPath示例以下是我平时用来读取文字的XPath# 读取百度搜索框里的文字value属性 //*[idkw]/value # 读取百度一下按钮上的文字 //*[idsu]/value # 读取第一条搜索结果的标题文字 //h3[classt]/a/text() # 读取某个div里面的所有文字 //div[idcontent]//text() # 读取表格第一行的第一列文字 //table[idmytable]/tbody/tr[1]/td[1]/text()注意/text()是XPath里用来读取文字的函数。真实代码读取文字的CSS选择器示例CSS选择器本身不能读取文字但可以定位到元素然后用获取元素文本指令来读。/* 定位到百度搜索框 */#kw/* 定位到百度一下按钮 */#su/* 定位到第一条搜索结果的标题 */h3.t a/* 定位到class等于content的div */div.content定位到元素之后用获取元素文本指令读取文字。真实代码Python里读取文字如果你会用Python也可以直接用代码来读取网页文字temu店群自动化报活动案例fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByimporttime driverwebdriver.Chrome()driver.get(https://www.baidu.com)# 输入搜索关键词search_boxdriver.find_element(By.ID,kw)search_box.send_keys(影刀RPA)# 点击百度一下submit_btndriver.find_element(By.ID,su)submit_btn.click()# 等待搜索结果加载time.sleep(3)# 读取第一条搜索结果的标题first_resultdriver.find_element(By.CSS_SELECTOR,h3.t a)print(first_result.text)driver.quit()first_result.text就是读取元素的文字内容。真实代码配置参数完整示例获取元素文本指令的完整配置参数指令名称获取元素文本 操作目标第一条搜索结果变量 获取方式元素文本 保存文本至第一条标题等待元素出现指令的完整配置参数指令名称等待元素出现 操作目标第一条搜索结果变量 超时时间秒10 检查间隔毫秒500怎么读取输入框里的文字value属性有些时候你要读取的不是元素显示的文字而是输入框里的value属性。比如百度搜索框你输入了影刀RPA搜索框里显示的文字就是value属性的值。要用获取元素属性指令而不是获取元素文本指令。操作目标搜索框变量 属性名value 保存属性值至搜索框内容这样搜索框内容变量里就存了影刀RPA。home.linyan.cloud你可以去 home.linyan.cloud 看看更多影刀RPA的学习资料。今天你学到了什么今天你学会了怎么用获取元素文本指令读取网页上的文字获取元素文本指令里每个参数的含义怎么读取输入框里的文字用获取元素属性指令怎么把读取到的文字存到变量里怎么用打印日志显示读取到的文字读取文字是数据采集的基础。今天学扎实了后面学数据采集就快。练习题可选如果你愿意可以自己试试让影刀打开百度搜索影刀RPA不只读第一条搜索结果的标题而是把前5条结果的标题都读出来。提示需要用循环指令配合获取相似元素列表指令。内容标签影刀RPA # 新手教程 # 读取文字 # 零基础 # 入门教程 # RPA自动化 # 网页自动化 # 数据采集作者林焱